一级中国毛片,99麻花豆传媒剧国产,人妻少妇看A偷人无码

作者：ICVIEWS編輯部

Hot Chips 向來(lái)都是芯片領(lǐng)域的盛會(huì)。2024 年的 Hot Chips 在美國(guó)斯坦福大學(xué)紀(jì)念禮堂隆重舉行。迄今為止，Hot Chips 展會(huì)已成功舉辦了 36 屆。

數(shù)十年來(lái)，該展會(huì)一直是探討英特爾、AMD、IBM 以及眾多其他供應(yīng)商最前沿芯片的熱門(mén)之地，各公司也常常借此展會(huì)發(fā)布新產(chǎn)品。

英偉達(dá)：公布Blackwell架構(gòu)細(xì)節(jié)，2024年至2028年的產(chǎn)品路線圖IBM：下一代 AI 加速器Telum II英特爾：下一代英特爾至強(qiáng) 6 SoC、Lunar Lake客戶端處理器AMD：Zen 5 核心架構(gòu)解析高通：Oryon核心解析特斯拉：TTPoE，即特斯拉以太網(wǎng)傳輸協(xié)議中國(guó)香山高性能RISC-V處理器亮相

?01、英偉達(dá)：公布Blackwell架構(gòu)細(xì)節(jié)

英偉達(dá)公布了下一代GPU架構(gòu)Blackwell的更多細(xì)節(jié)信息，以及未來(lái)的產(chǎn)品路線圖。英偉達(dá)Blackwell是通用計(jì)算全棧矩陣的終極解決方案，由多個(gè)英偉達(dá)芯片組成，包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。

它涵蓋了從CPU和GPU計(jì)算，到用于互連的不同類型的網(wǎng)絡(luò)。這是芯片到機(jī)架和互連，而不僅僅是GPU。它是有史以來(lái)單個(gè)GPU所擁有的最強(qiáng)AI計(jì)算、內(nèi)存帶寬和互連帶寬。通過(guò)使用高帶寬接口（NV-HBI），可在兩個(gè)GPU芯片之間提供10TB/s的帶寬。此外，英偉達(dá)還引入了新的FP4和FP6精度。降低計(jì)算精度是提高性能的一種眾所周知的方法。通過(guò)英偉達(dá)的Quasar量化系統(tǒng)，可以找出哪些方面可以使用較低的精度，從而減少計(jì)算和存儲(chǔ)。英偉達(dá)表示，用于推理的FP4在某些情況下可以接近BF16性能。

NVLink交換機(jī)芯片和NVLink交換機(jī)托盤(pán)（tray）旨在以更低的功耗推送大量數(shù)據(jù)。英偉達(dá)演示了GB200 NVL72和NVL36。其中，NVL72包含36個(gè)Grace GPU和72個(gè)Blackwell GPU，專為萬(wàn)億參數(shù)AI而設(shè)計(jì)。GB200 NVL 72作為一個(gè)統(tǒng)一系統(tǒng)，對(duì)大語(yǔ)言模型（LLM）推理性能提升高達(dá)30倍，釋放了實(shí)時(shí)運(yùn)行數(shù)萬(wàn)億個(gè)參數(shù)模型的能力。

英偉達(dá)表示，隨著AI模型尺寸的增加，在多個(gè)GPU上拆分工作負(fù)載勢(shì)在必行。而B(niǎo)lackwell足夠強(qiáng)大，可以在一個(gè)GPU中處理專家模型。

英偉達(dá)還展示了2024年至2028年的產(chǎn)品路線圖。2026年的1.6T ConnectX-9似乎表明了英偉達(dá)對(duì)PCIe Gen7的需求，因?yàn)镻CIe Gen6 x16無(wú)法處理1.6T的網(wǎng)絡(luò)連接。

?02、IBM：下一代 AI 加速器，Telum II

2021 年，IBM推出了IBM Telum 處理器，這是 IBM 首款用于推理的先進(jìn)處理器芯片 AI 加速器。Telum 處理器實(shí)現(xiàn)業(yè)務(wù)成果的能力一直是 IBM z16大型機(jī)計(jì)劃成功的關(guān)鍵驅(qū)動(dòng)因素。隨著客戶需求的發(fā)展，IBM 不斷創(chuàng)新并突破新興技術(shù)的極限。

在今年的Hot Chips 2024大會(huì)上，IBM 宣布推出面向 AI 時(shí)代的下一代企業(yè)計(jì)算，即?IBM Telum II 處理器和?IBM Spyre Accelerator?預(yù)覽版。預(yù)計(jì)兩者將于 2025 年上市。采用三星 5nm 技術(shù)開(kāi)發(fā)的全新 IBM Telum II 處理器將配備八個(gè)高性能核心，運(yùn)行頻率為 5.5GHz。Telum II 的片上緩存容量將增加 40%，虛擬 L3 和虛擬 L4 分別增加到 360MB 和 2.88GB。該處理器集成了專門(mén)用于 IO 加速的全新數(shù)據(jù)處理單元 (DPU) 和下一代片上 AI 加速。這些硬件增強(qiáng)旨在為客戶提供比前幾代產(chǎn)品顯著的性能改進(jìn)。

每個(gè)加速器的計(jì)算能力預(yù)計(jì)將提高 4 倍，達(dá)到每秒 24 萬(wàn)億次運(yùn)算 (TOPS)。但僅憑 TOPS 并不能說(shuō)明全部情況。這完全取決于加速器的架構(gòu)設(shè)計(jì)以及位于加速器之上的 AI 生態(tài)系統(tǒng)的優(yōu)化。當(dāng)談到生產(chǎn)企業(yè)工作負(fù)載中的 AI 加速時(shí)，適合用途的架構(gòu)至關(guān)重要。Telum II 旨在使模型運(yùn)行時(shí)能夠與最苛刻的企業(yè)工作負(fù)載并駕齊驅(qū)，同時(shí)提供高吞吐量、低延遲推理。此外，還增加了對(duì) INT8 作為數(shù)據(jù)類型的支持，以增強(qiáng)首選 INT8 的應(yīng)用程序的計(jì)算能力和效率，從而支持使用較新的模型。還加入了新的計(jì)算原語(yǔ)，以更好地支持加速器內(nèi)的大型語(yǔ)言模型。它們旨在支持越來(lái)越廣泛的 AI 模型，以便對(duì)結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行全面分析。

Spyre 核心的框圖在 Hot Chips 2024 上，IBM 還展示了 IBM Spyre 加速器，它是與 IBM Research 和 IBM Infrastructure Development 聯(lián)合開(kāi)發(fā)的。Spyre 加速器將包含 32 個(gè) AI 加速器核心，這些核心將與集成在 Telum II 芯片中的 AI 加速器共享類似的架構(gòu)。多個(gè) IBM Spyre 加速器可以通過(guò) PCIe 連接到 IBM Z 的 I/O 子系統(tǒng)中。將這兩種技術(shù)結(jié)合起來(lái)可以大幅增加可用的加速量。

Spyre 加速卡的外觀Spyre 芯片上有一個(gè) 32 字節(jié)雙向環(huán)連接 32 個(gè)內(nèi)核（我們認(rèn)為是 34 個(gè)內(nèi)核，但只有 32 個(gè)處于活動(dòng)狀態(tài)），還有一個(gè)單獨(dú)的 128 字節(jié)環(huán)連接與內(nèi)核相關(guān)的暫存器內(nèi)存。內(nèi)核支持 INT4、INT8、FP8 和 FP16 數(shù)據(jù)類型。

?03、英特爾：下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器

在 Hot Chips 2024 上，英特爾發(fā)表了四篇技術(shù)論文，重點(diǎn)介紹了英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器、英特爾 Gaudi 3 AI 加速器和 OCI 芯片組。

英特爾至強(qiáng) 6 SoC 將英特爾至強(qiáng) 6 處理器的計(jì)算芯片組與基于intel 4 工藝技術(shù)構(gòu)建的邊緣優(yōu)化 I/O 芯片組相結(jié)合。與之前的技術(shù)相比，這使 SoC 在性能、能效和晶體管密度方面實(shí)現(xiàn)了顯著提升。其他功能包括：

封裝

lEdge 特定的增強(qiáng)功能，包括擴(kuò)展的工作溫度范圍和工業(yè)級(jí)可靠性，使其成為高性能堅(jiān)固設(shè)備的理想選擇。

英特爾至強(qiáng) 6 SoC 還包括旨在提高邊緣和網(wǎng)絡(luò)工作負(fù)載性能和效率的功能，其中包括新媒體加速，可增強(qiáng)實(shí)時(shí) OTT、VOD 和廣播媒體的視頻轉(zhuǎn)碼和分析；英特爾高級(jí)矢量擴(kuò)展和英特爾高級(jí)矩陣擴(kuò)展，可提高推理性能；英特爾QuickAssist 技術(shù)，可實(shí)現(xiàn)更高效的網(wǎng)絡(luò)和存儲(chǔ)性能；英特爾 vRAN Boost，可降低虛擬化 RAN 的功耗；并支持英特爾Tiber 邊緣平臺(tái)，讓用戶能夠以類似云的簡(jiǎn)便性在標(biāo)準(zhǔn)硬件上構(gòu)建、部署、運(yùn)行、管理和擴(kuò)展邊緣和人工智能解決方案。

Lunar Lake 客戶端處理器。與上一代相比，新的性能核心 (P 核心）?和高效核心 (E 核心）?可提供驚人的性能，而系統(tǒng)級(jí)芯片功耗降低了 40%。與上一代相比，新的神經(jīng)處理單元速度提高了 4 倍，從而實(shí)現(xiàn)了生成式 AI (GenAI) 的相應(yīng)改進(jìn)。此外，新的 X e 2 圖形處理單元核心將游戲和圖形性能提高了 1.5 倍。有關(guān) Lunar Lake 的更多詳細(xì)信息將于9 月 3 日在英特爾酷睿超極本發(fā)布會(huì)期間公布。

英特爾 Gaudi 3 AI 加速器。人工智能加速器首席架構(gòu)師 Roman Kaplan 介紹了需要大量計(jì)算能力的生成式人工智能模型的訓(xùn)練和部署。隨著系統(tǒng)規(guī)模的擴(kuò)大（從單個(gè)節(jié)點(diǎn)擴(kuò)展到龐大的數(shù)千個(gè)節(jié)點(diǎn)集群），這會(huì)帶來(lái)巨大的成本和功耗挑戰(zhàn)。

英特爾 Gaudi 3 OAM 工作示例包英特爾 Gaudi 3 AI 加速器通過(guò)優(yōu)化計(jì)算、內(nèi)存和網(wǎng)絡(luò)架構(gòu)來(lái)解決這些問(wèn)題，同時(shí)采用高效矩陣乘法引擎、兩級(jí)緩存集成和廣泛的 RoCE（融合以太網(wǎng)上的 RDMA）網(wǎng)絡(luò)等策略。這使 Gaudi 3 AI 加速器能夠?qū)崿F(xiàn)顯著的性能和能效，使 AI 數(shù)據(jù)中心能夠更經(jīng)濟(jì)高效、更可持續(xù)地運(yùn)行，解決部署 GenAI 工作負(fù)載時(shí)的可擴(kuò)展性問(wèn)題。

?04、AMD：Zen 5 核心架構(gòu)解析

在 Hot Chips 上，AMD 深入介紹了其全新的 Zen 5 核心架構(gòu)，該架構(gòu)將為其下一次高性能 PC 之旅提供動(dòng)力。AMD 的 Zen 1 核心架構(gòu)于 2017 年首次推出，此后，該公司推出了五種新架構(gòu)（Zen+、Zen 2、Zen 3、Zen 4、Zen 5）。AMD 在本世紀(jì)初推出了 Zen 3 架構(gòu)，該架構(gòu)在利用 7nm/6nm 工藝技術(shù)的同時(shí)，將 IPC 提高了 19%，具有 8 核復(fù)合體，并增加了每個(gè) CCX 的 L3 緩存。該公司隨后發(fā)布了 Zen 4，帶來(lái)了另外 14% 的 IPC 改進(jìn)、AVX-512（FP-256）指令、將 L2 緩存增加一倍至 1 MB、支持 VNNI/BFLOAT16 并采用 5nm 和 4nm 工藝技術(shù)。

今年，AMD 推出了其最新的高性能核心架構(gòu) Zen 5，該架構(gòu)通過(guò) AVX-512 和 FP-512 變體將 IPC 提升了 16%，具有 8 寬調(diào)度、6 個(gè) ALU、雙管道提取/解碼和 4nm/3nm 技術(shù)利用率。今天，AMD 正在 Hot Chips 上深入研究其 Zen 5 的完整架構(gòu)。

AMD 首先闡述了 Zen 5 的設(shè)計(jì)目標(biāo)。在性能方面，Zen 5 旨在實(shí)現(xiàn) 1T 和 NT 性能的又一次重大提升，平衡跨核 1T/NT 指令和數(shù)據(jù)吞吐量，創(chuàng)建前端并行性，提高執(zhí)行并行性，提高吞吐量，實(shí)現(xiàn)高效的數(shù)據(jù)移動(dòng)和預(yù)取，并支持 AVX512/FP512 數(shù)據(jù)路徑以提高吞吐量和 AI。同時(shí)，AMD 希望通過(guò)其 Zen 5 和 Zen 5C 核心變體添加新功能，例如額外的 ISA 擴(kuò)展和新的安全功能，以及擴(kuò)展平臺(tái)支持。

產(chǎn)品方面，AMD 的 Zen 5 核心將在三輪產(chǎn)品中率先亮相，包括 Ryzen 9000 “Granite Ridge” 臺(tái)式機(jī) CPU、Ryzen AI 300 “Strix” 筆記本電腦 CPU 和第五代 EPYC "Turin" 數(shù)據(jù)中心 CPU?？偠灾珹MD 表示 Zen 5 再次以大幅提升性能的節(jié)奏交付，AVX512 具有 512 位 FP 數(shù)據(jù)路徑，可提高吞吐量和 AI 性能。高效、高性能、可擴(kuò)展的可配置解決方案：Zen 5 可實(shí)現(xiàn)峰值性能，Zen 5c 可實(shí)現(xiàn)效率，支持 4nm 和 3nm 工藝節(jié)點(diǎn)。

?05、高通：Oryon 核心解析

在 Hot Chips 2024 上，高通詳細(xì)展示了驍龍 X Elite 中的高通Oryon CPU。高通 Snapdragon X Elite 是該公司進(jìn)軍基于 Arm 的 PC SoC 的嘗試。

高通Oryon 是該公司為 Snapdragon X Elite SoC 提供動(dòng)力的 CPU。這是 Nuvia 團(tuán)隊(duì)基于 Arm 的核心。這里的集群是相同的，但出于功率目的，它們的運(yùn)行方式不同。

高通重點(diǎn)關(guān)注的 CPU 核心領(lǐng)域包括指令獲取單元 (IFU)、矢量執(zhí)行單元 (VXU)、重命名和退出單元 (REU)、整數(shù)執(zhí)行單元 (IXU)、內(nèi)存管理單元 (MMU) 以及加載和存儲(chǔ)單元 (LSU)。以下是 Oryon 的提取和解碼規(guī)格。13 周期分支預(yù)測(cè)錯(cuò)誤延遲并非業(yè)界最佳，但高通表示，該設(shè)計(jì)已“平衡”。

矢量和標(biāo)量引擎都具有類似的總體布局和物理寄存器文件。兩者都有來(lái)自加載/存儲(chǔ)單元的四個(gè)數(shù)據(jù)饋送，因此每個(gè)周期可以進(jìn)行四次加載。相比之下，AMD 的 Zen 4 在整數(shù)方面每個(gè)周期只能處理三次加載，在矢量方面每個(gè)周期只能處理兩次加載。

高通選擇了分布式調(diào)度模型。雖然統(tǒng)一調(diào)度器有其優(yōu)勢(shì)，但拆分隊(duì)列可以更輕松地選擇最早就緒的指令。Oryon 的加載/存儲(chǔ)單元擁有大型 64 個(gè)條目保留站或調(diào)度器。核心的調(diào)度容量大于加載/存儲(chǔ)隊(duì)列容量，這與我們?cè)谄渌軜?gòu)中看到的情況相反。

高通指出，更大的調(diào)度器仍能滿足時(shí)序要求，并緩解一些瓶頸。此外，調(diào)度器可以執(zhí)行除加載/存儲(chǔ)之外的其他操作（可能是存儲(chǔ)數(shù)據(jù)操作），額外的容量有助于吸收這些操作。Oryon 的 L1 數(shù)據(jù)緩存容量為 96 KB。它是多端口的，并使用代工廠的標(biāo)準(zhǔn)位單元設(shè)計(jì)。高通確實(shí)評(píng)估了使用更大數(shù)據(jù)緩存的可能性，但選擇了 96 KB 的設(shè)計(jì)以滿足時(shí)序（時(shí)鐘速度）要求。

這是使用單線程的內(nèi)存帶寬圖表。單核能夠以略低于 100GB/s 的范圍進(jìn)行傳輸，考慮到 LPDDR5x 內(nèi)存的 135GB/s 平臺(tái)帶寬，這非常了不起。

預(yù)取在任何現(xiàn)代核心中都扮演著重要角色。Oryon 特別強(qiáng)調(diào)預(yù)取，各種標(biāo)準(zhǔn)和專有預(yù)取器都會(huì)查看訪問(wèn)模式，并嘗試在指令請(qǐng)求數(shù)據(jù)之前生成請(qǐng)求。高通通過(guò)使用各種訪問(wèn)模式測(cè)試軟件可見(jiàn)的加載延遲來(lái)展示這一點(diǎn)。預(yù)取器拾取的模式具有較低的延遲。對(duì)于簡(jiǎn)單的線性訪問(wèn)模式，預(yù)取器運(yùn)行得足夠靠前，幾乎可以完全隱藏 L2 延遲。

在系統(tǒng)層面，驍龍 X Elite 擁有 12 個(gè)內(nèi)核，分為三個(gè)四核集群。之所以沒(méi)有使用更大的內(nèi)核集群，是因?yàn)樵陂_(kāi)發(fā)生命周期的早期，L2 互連不支持超過(guò)四個(gè)內(nèi)核的集群。該功能后來(lái)被添加，但并未出現(xiàn)在驍龍 X Elite 中。之前有測(cè)試指出，在測(cè)試的筆記本電腦中，12 個(gè)內(nèi)核受到功率和散熱限制的嚴(yán)重限制。在與產(chǎn)品經(jīng)理的對(duì)話中，他們表示，擁有 12 個(gè)內(nèi)核讓驍龍 X Elite 能夠擴(kuò)展到更高的功率目標(biāo)，并在具有更好散熱的設(shè)備中提供額外的多線程性能。該策略與英特爾和 AMD 形成鮮明對(duì)比，后者使用不同的內(nèi)核數(shù)量來(lái)實(shí)現(xiàn)廣泛的功率目標(biāo)。

高通希望將 Oryon 的用途拓展到筆記本電腦以外的領(lǐng)域。

?06、特斯拉：TTPoE，即特斯拉以太網(wǎng)傳輸協(xié)議

去年在 Hot Chips 2023 上，特斯拉推出了他們的 Dojo 超級(jí)計(jì)算機(jī)。對(duì)于特斯拉來(lái)說(shuō)，機(jī)器學(xué)習(xí)專注于自動(dòng)駕駛汽車(chē)等汽車(chē)應(yīng)用，訓(xùn)練涉及視頻，這可能需要大量的 IO 帶寬。例如，對(duì)于公司的視覺(jué)應(yīng)用，單個(gè)張量的大小可能為 1.7 GB。特斯拉發(fā)現(xiàn)，即使主機(jī)只是通過(guò) PCIe 復(fù)制數(shù)據(jù)，他們的 Dojo 超級(jí)計(jì)算機(jī)的吞吐量也可能受到主機(jī)將數(shù)據(jù)推送到超級(jí)計(jì)算機(jī)的速度的限制。

特斯拉通過(guò)增加更多主機(jī)和將這些額外主機(jī)連接到超級(jí)計(jì)算機(jī)的廉價(jià)方式解決了這個(gè)問(wèn)題。特斯拉沒(méi)有使用像 Infiniband 這樣的典型超級(jí)計(jì)算機(jī)網(wǎng)絡(luò)解決方案，而是選擇通過(guò)修改傳輸層來(lái)適應(yīng)以太網(wǎng)的需求。TCP 被特斯拉以太網(wǎng)傳輸協(xié)議 (TTPoE) 取代。TTPoE 旨在提供微秒級(jí)延遲并允許簡(jiǎn)單的硬件卸載。較低級(jí)別的層保持不變，讓協(xié)議在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上運(yùn)行。

TTPoE 的設(shè)計(jì)完全由硬件處理，并提供比標(biāo)準(zhǔn) TCP 協(xié)議更好的延遲。因此，與 TCP 相比，TTPoE 的狀態(tài)機(jī)大大簡(jiǎn)化。

通過(guò)消除 TCP 中的等待狀態(tài)，可以減少延遲。在 TCP 中關(guān)閉連接涉及發(fā)送 FIN、等待該 FIN 的確認(rèn)，并確認(rèn)該確認(rèn)。此后，連接進(jìn)入 TIME WAIT 狀態(tài)，這需要實(shí)現(xiàn)等待一段時(shí)間，允許任何無(wú)序數(shù)據(jù)包安全耗盡，然后新連接才能重用該端口。TTP 刪除 TIME_WAIT 狀態(tài)，并將關(guān)閉順序從三次傳輸更改為兩次?？梢酝ㄟ^(guò)發(fā)送關(guān)閉操作碼并接收確認(rèn)來(lái)關(guān)閉 TTP 連接。Tesla 的目標(biāo)是微秒級(jí)的延遲，因此即使是毫秒級(jí)的 TIME_WAIT 持續(xù)時(shí)間也可能導(dǎo)致嚴(yán)重問(wèn)題。

TCP 以三向 SYN、SYN-ACK、ACK 握手打開(kāi)連接。TTP 應(yīng)用了與關(guān)閉端類似的優(yōu)化，將握手更改為雙向握手。同樣，打開(kāi)連接時(shí)傳輸次數(shù)越少，延遲就越低。這些簡(jiǎn)化的打開(kāi)和關(guān)閉序列是在硬件中實(shí)現(xiàn)的，這也使其對(duì)軟件透明。這意味著軟件不必明確創(chuàng)建連接，而是可以告訴硬件它想要向哪個(gè)目的地發(fā)送數(shù)據(jù)或從哪個(gè)目的地接收數(shù)據(jù)。

與 TCP 一樣，特斯拉使用數(shù)據(jù)包丟棄來(lái)進(jìn)行擁塞控制。但由于 TTP 設(shè)計(jì)為在低延遲底層網(wǎng)絡(luò)上運(yùn)行，因此特斯拉能夠采取蠻力方法解決問(wèn)題。傳統(tǒng)的 TCP 實(shí)現(xiàn)會(huì)維護(hù)一個(gè)滑動(dòng)擁塞窗口，該窗口限制可以發(fā)送的未確認(rèn)數(shù)據(jù)量。您可以將其視為網(wǎng)絡(luò)中正在傳輸?shù)牧髁?。如果?shù)據(jù)包得到及時(shí)確認(rèn)，則擁塞窗口會(huì)擴(kuò)大，從而增加帶寬。如果數(shù)據(jù)包被丟棄并且在時(shí)間閾值內(nèi)未收到確認(rèn)，則擁塞窗口會(huì)迅速縮小。這讓 TCP 能夠優(yōu)雅地處理各種不同的連接。帶寬將在低延遲、低損耗的家庭本地網(wǎng)絡(luò)中擴(kuò)大，并自然地在與您的互聯(lián)網(wǎng)服務(wù)提供商及其他網(wǎng)絡(luò)的高延遲、高數(shù)據(jù)包丟失鏈接中縮小。

特斯拉不打算在開(kāi)放互聯(lián)網(wǎng)的低質(zhì)量鏈路上運(yùn)行 TTP，因此采取了強(qiáng)力擁塞控制方法。擁塞窗口不會(huì)根據(jù)數(shù)據(jù)包丟失進(jìn)行縮放。硬件跟蹤 SRAM 緩沖區(qū)中發(fā)送的數(shù)據(jù)，這定義了擁塞窗口大小。當(dāng)緩沖區(qū)填滿時(shí)，發(fā)送停止，數(shù)據(jù)包丟失通過(guò)重新傳輸 SRAM 緩沖區(qū)中保存的數(shù)據(jù)來(lái)處理。當(dāng)相應(yīng)的確認(rèn)從另一端返回時(shí)，數(shù)據(jù)將從 SRAM 緩沖區(qū)中釋放，從而自然地將滑動(dòng)窗口向前移動(dòng)。

特斯拉證明這種方法的合理性是，傳統(tǒng) TCP 擁塞控制算法（如 Reno）的工作時(shí)間尺度太長(zhǎng)，因此對(duì)其 Dojo 超級(jí)計(jì)算機(jī)應(yīng)用程序無(wú)效。

擁塞管理在每個(gè)端點(diǎn)上獨(dú)立處理，這是 TCP 擁塞愛(ài)好者所熟悉的模型。Tesla 提到這一點(diǎn)主要是為了與其他低延遲網(wǎng)絡(luò)（如 Infiniband）形成對(duì)比，在這些網(wǎng)絡(luò)中，擁塞控制是在交換機(jī)級(jí)別處理的。Infiniband 使用在交換機(jī)級(jí)別控制的信用系統(tǒng)，不會(huì)丟棄數(shù)據(jù)包。如果端點(diǎn)用盡信用，它就會(huì)停止發(fā)送。TCP 和 TTP 通過(guò)簡(jiǎn)單地丟棄數(shù)據(jù)包來(lái)處理?yè)砣?，從而消除了單?dú)發(fā)送信用的需要，并降低了網(wǎng)絡(luò)交換機(jī)的復(fù)雜性。

Tesla 在位于芯片和標(biāo)準(zhǔn)以太網(wǎng)硬件之間的硬件塊中處理其 TTP 協(xié)議。此 MAC 硬件塊由 CPU 架構(gòu)師設(shè)計(jì)，并引入了許多 CPU 設(shè)計(jì)功能。演示者將其描述為像共享緩存一樣，其中仲裁器在考慮排序風(fēng)險(xiǎn)的情況下在請(qǐng)求之間進(jìn)行選擇。

傳輸中的數(shù)據(jù)包在被確認(rèn)后會(huì)按順序“退出”，這種機(jī)制讓人想起 CPU 從重新排序緩沖區(qū)按順序退出指令。最突出的資源之一是 1 MB 傳輸 SRAM 緩沖區(qū)，它定義了上述擁塞窗口。特斯拉表示，這個(gè)大小足以容忍大約 80 微秒的網(wǎng)絡(luò)延遲，而不會(huì)造成明顯的帶寬損失。根據(jù)利特爾定律，假設(shè) 1 MB 的傳輸數(shù)據(jù)和 80 微秒的延遲，則會(huì)產(chǎn)生 97.65Gbps。這剛好足以使 100 千兆位網(wǎng)絡(luò)接口飽和。TPP MAC 是在 Tesla 所謂的“Dumb-NIC”上實(shí)現(xiàn)的。NIC 代表“網(wǎng)絡(luò)接口卡”。之所以被稱為“Dumb”，是因?yàn)樗M可能便宜和簡(jiǎn)單。Tesla 希望部署大量主機(jī)節(jié)點(diǎn)來(lái)為他們的 Dojo 超級(jí)計(jì)算機(jī)提供數(shù)據(jù)，而廉價(jià)的網(wǎng)卡有助于以經(jīng)濟(jì)高效的方式實(shí)現(xiàn)這一目標(biāo)。

除了 TPP MAC，Mojo 還集成了帶有 PCIe Gen 3 x16 接口的主機(jī)芯片以及 8 GB 的 DDR4。PCIe Gen 3 和 DDR4 并非尖端技術(shù)，但有助于控制成本。Mojo 這個(gè)名字源于這樣一種理念：額外的主機(jī)節(jié)點(diǎn)會(huì)為 Dojo 提供更多的 Mojo，從而保持高性能。

這些 Mojo 卡安裝在遠(yuǎn)程主機(jī)上。當(dāng)工程師需要更多帶寬來(lái)將數(shù)據(jù)輸入 Dojo 超級(jí)計(jì)算機(jī)時(shí)，可以從池中拉出遠(yuǎn)程主機(jī)。這些機(jī)器的額外帶寬疊加在現(xiàn)有主機(jī)提供的入口帶寬之上，這些主機(jī)使用去年 Hot Chips 會(huì)議上展示的更高成本接口處理器。

總體而言，Mojo 和 TTPoE 協(xié)議提供了一個(gè)有趣的視角，展示了如何簡(jiǎn)化眾所周知的傳輸控制協(xié)議 (TCP)，以用于更高質(zhì)量的超級(jí)計(jì)算機(jī)內(nèi)部網(wǎng)絡(luò)。雖然該協(xié)議理論上可以在互聯(lián)網(wǎng)上運(yùn)行，但諸如固定擁塞窗口之類的簡(jiǎn)化在互聯(lián)網(wǎng)服務(wù)提供商及其他低質(zhì)量鏈路上效果不佳。與 Infiniband 等其他超級(jí)計(jì)算網(wǎng)絡(luò)解決方案相比，以太網(wǎng)上的自定義傳輸協(xié)議可能提供足夠的額外帶寬來(lái)滿足 Dojo 的需求。

?07、中國(guó)香山高性能 RISC-V 處理器亮相

“香山”開(kāi)源高性能RISC-V處理器核源于中國(guó)科學(xué)院在2019年布局的“中國(guó)科學(xué)院先導(dǎo)戰(zhàn)略專項(xiàng)”。作為該項(xiàng)目的承擔(dān)單位，中國(guó)科學(xué)院計(jì)算技術(shù)研究所于2021年成功研制了第一代開(kāi)源高性能RISC-V處理器核“香山（雁棲湖）”，是同期全球性能最高的開(kāi)源處理器核。

第二代“香山”（南湖）開(kāi)源高性能RISC-V處理器核發(fā)布，是我國(guó)首款對(duì)標(biāo)A76的高性能開(kāi)源RISC-V處理器核。第三代“香山”（微架構(gòu)代號(hào)是昆明湖）生產(chǎn)線瞄準(zhǔn)的是 Arm Neoverse N2。

以上是“昆明湖”和“南湖”芯片與Arm Neoverse N2和 Arm Cortex A76 的比較。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATXMEGA64D4-AU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP		$3.44	查看
ATXMEGA64A1-AU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 100TQFP	ECAD模型下載ECAD模型	$7.58	查看
STM32H750VBT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals	ECAD模型下載ECAD模型	$27.62	查看

Hot Chips，芯片瘋狂

?01、英偉達(dá)：公布Blackwell架構(gòu)細(xì)節(jié)

?02、IBM：下一代 AI 加速器，Telum II

?03、英特爾：下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器

?04、AMD：Zen 5 核心架構(gòu)解析

?05、高通：Oryon 核心解析

?06、特斯拉：TTPoE，即特斯拉以太網(wǎng)傳輸協(xié)議

?07、中國(guó)香山高性能 RISC-V 處理器亮相

推薦器件

相關(guān)推薦

Hot Chips，芯片瘋狂

?01、英偉達(dá)：公布Blackwell架構(gòu)細(xì)節(jié)

?02、IBM：下一代 AI 加速器，Telum II

?03、英特爾：下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器

?04、AMD：Zen 5 核心架構(gòu)解析

?05、高通：Oryon 核心解析

?06、特斯拉：TTPoE，即特斯拉以太網(wǎng)傳輸協(xié)議

?07、中國(guó)香山高性能 RISC-V 處理器亮相

推薦器件

相關(guān)推薦

Hot Chips，芯片瘋狂

?02、IBM：下一代 AI 加速器，Telum II

?03、英特爾：下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器

?04、AMD：Zen 5 核心架構(gòu)解析

?05、高通：Oryon 核心解析

?06、特斯拉：TTPoE，即特斯拉以太網(wǎng)傳輸協(xié)議