加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • ?01、英偉達(dá):公布Blackwell架構(gòu)細(xì)節(jié)
    • ?02、IBM:下一代 AI 加速器,Telum II
    • ?03、英特爾:下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器
    • ?04、AMD:Zen 5 核心架構(gòu)解析
    • ?05、高通:Oryon 核心解析
    • ?06、特斯拉:TTPoE,即特斯拉以太網(wǎng)傳輸協(xié)議
    • ?07、中國香山高性能 RISC-V 處理器亮相
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

Hot Chips,芯片瘋狂

08/29 09:30
1899
閱讀需 27 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者:ICVIEWS編輯部

Hot Chips 向來都是芯片領(lǐng)域的盛會。2024 年的 Hot Chips 在美國斯坦福大學(xué)紀(jì)念禮堂隆重舉行。迄今為止,Hot Chips 展會已成功舉辦了 36 屆。

數(shù)十年來,該展會一直是探討英特爾AMD、IBM 以及眾多其他供應(yīng)商最前沿芯片的熱門之地,各公司也常常借此展會發(fā)布新產(chǎn)品。

英偉達(dá):公布Blackwell架構(gòu)細(xì)節(jié),2024年至2028年的產(chǎn)品路線圖IBM:下一代 AI 加速器Telum II英特爾:下一代英特爾至強(qiáng) 6 SoC、Lunar Lake客戶端處理器AMD:Zen 5 核心架構(gòu)解析高通:Oryon核心解析特斯拉:TTPoE,即特斯拉以太網(wǎng)傳輸協(xié)議中國香山高性能RISC-V處理器亮相

?01、英偉達(dá):公布Blackwell架構(gòu)細(xì)節(jié)

英偉達(dá)公布了下一代GPU架構(gòu)Blackwell的更多細(xì)節(jié)信息,以及未來的產(chǎn)品路線圖。英偉達(dá)Blackwell是通用計算全棧矩陣的終極解決方案,由多個英偉達(dá)芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。

它涵蓋了從CPU和GPU計算,到用于互連的不同類型的網(wǎng)絡(luò)。這是芯片到機(jī)架和互連,而不僅僅是GPU。它是有史以來單個GPU所擁有的最強(qiáng)AI計算、內(nèi)存帶寬和互連帶寬。通過使用高帶寬接口(NV-HBI),可在兩個GPU芯片之間提供10TB/s的帶寬。此外,英偉達(dá)還引入了新的FP4和FP6精度。降低計算精度是提高性能的一種眾所周知的方法。通過英偉達(dá)的Quasar量化系統(tǒng),可以找出哪些方面可以使用較低的精度,從而減少計算和存儲。英偉達(dá)表示,用于推理的FP4在某些情況下可以接近BF16性能。

NVLink交換機(jī)芯片和NVLink交換機(jī)托盤(tray)旨在以更低的功耗推送大量數(shù)據(jù)。英偉達(dá)演示了GB200 NVL72和NVL36。其中,NVL72包含36個Grace GPU和72個Blackwell GPU,專為萬億參數(shù)AI而設(shè)計。GB200 NVL 72作為一個統(tǒng)一系統(tǒng),對大語言模型(LLM)推理性能提升高達(dá)30倍,釋放了實時運行數(shù)萬億個參數(shù)模型的能力。

英偉達(dá)表示,隨著AI模型尺寸的增加,在多個GPU上拆分工作負(fù)載勢在必行。而Blackwell足夠強(qiáng)大,可以在一個GPU中處理專家模型。

英偉達(dá)還展示了2024年至2028年的產(chǎn)品路線圖。2026年的1.6T ConnectX-9似乎表明了英偉達(dá)對PCIe Gen7的需求,因為PCIe Gen6 x16無法處理1.6T的網(wǎng)絡(luò)連接。

?02、IBM:下一代 AI 加速器,Telum II

2021 年,IBM推出了IBM Telum 處理器,這是 IBM 首款用于推理的先進(jìn)處理器芯片 AI 加速器。Telum 處理器實現(xiàn)業(yè)務(wù)成果的能力一直是 IBM z16大型機(jī)計劃成功的關(guān)鍵驅(qū)動因素。隨著客戶需求的發(fā)展,IBM 不斷創(chuàng)新并突破新興技術(shù)的極限。

在今年的Hot Chips 2024大會上,IBM 宣布推出面向 AI 時代的下一代企業(yè)計算,即?IBM Telum II 處理器和?IBM Spyre Accelerator?預(yù)覽版。預(yù)計兩者將于 2025 年上市。采用三星 5nm 技術(shù)開發(fā)的全新 IBM Telum II 處理器將配備八個高性能核心,運行頻率為 5.5GHz。Telum II 的片上緩存容量將增加 40%,虛擬 L3 和虛擬 L4 分別增加到 360MB 和 2.88GB。該處理器集成了專門用于 IO 加速的全新數(shù)據(jù)處理單元 (DPU) 和下一代片上 AI 加速。這些硬件增強(qiáng)旨在為客戶提供比前幾代產(chǎn)品顯著的性能改進(jìn)。

每個加速器的計算能力預(yù)計將提高 4 倍,達(dá)到每秒 24 萬億次運算 (TOPS)。但僅憑 TOPS 并不能說明全部情況。這完全取決于加速器的架構(gòu)設(shè)計以及位于加速器之上的 AI 生態(tài)系統(tǒng)的優(yōu)化。當(dāng)談到生產(chǎn)企業(yè)工作負(fù)載中的 AI 加速時,適合用途的架構(gòu)至關(guān)重要。Telum II 旨在使模型運行時能夠與最苛刻的企業(yè)工作負(fù)載并駕齊驅(qū),同時提供高吞吐量、低延遲推理。此外,還增加了對 INT8 作為數(shù)據(jù)類型的支持,以增強(qiáng)首選 INT8 的應(yīng)用程序的計算能力和效率,從而支持使用較新的模型。還加入了新的計算原語,以更好地支持加速器內(nèi)的大型語言模型。它們旨在支持越來越廣泛的 AI 模型,以便對結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行全面分析。

Spyre 核心的框圖在 Hot Chips 2024 上,IBM 還展示了 IBM Spyre 加速器,它是與 IBM Research 和 IBM Infrastructure Development 聯(lián)合開發(fā)的。Spyre 加速器將包含 32 個 AI 加速器核心,這些核心將與集成在 Telum II 芯片中的 AI 加速器共享類似的架構(gòu)。多個 IBM Spyre 加速器可以通過 PCIe 連接到 IBM Z 的 I/O 子系統(tǒng)中。將這兩種技術(shù)結(jié)合起來可以大幅增加可用的加速量。

Spyre 加速卡的外觀Spyre 芯片上有一個 32 字節(jié)雙向環(huán)連接 32 個內(nèi)核(我們認(rèn)為是 34 個內(nèi)核,但只有 32 個處于活動狀態(tài)),還有一個單獨的 128 字節(jié)環(huán)連接與內(nèi)核相關(guān)的暫存器內(nèi)存。內(nèi)核支持 INT4、INT8、FP8 和 FP16 數(shù)據(jù)類型。

?03、英特爾:下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器

在 Hot Chips 2024 上,英特爾發(fā)表了四篇技術(shù)論文,重點介紹了英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器、英特爾 Gaudi 3 AI 加速器和 OCI 芯片組。

英特爾至強(qiáng) 6 SoC 將英特爾至強(qiáng) 6 處理器的計算芯片組與基于intel 4 工藝技術(shù)構(gòu)建的邊緣優(yōu)化 I/O 芯片組相結(jié)合。與之前的技術(shù)相比,這使 SoC 在性能、能效和晶體管密度方面實現(xiàn)了顯著提升。其他功能包括:

    最多 32 條通道 PCI Express (PCIe) 5.0。最多 16 條通道 Compute Express Link (CXL) 2.0。2x100G 以太網(wǎng)。兼容 BGA 封裝中的四個和八個內(nèi)存通道。

lEdge 特定的增強(qiáng)功能,包括擴(kuò)展的工作溫度范圍和工業(yè)級可靠性,使其成為高性能堅固設(shè)備的理想選擇。

英特爾至強(qiáng) 6 SoC 還包括旨在提高邊緣和網(wǎng)絡(luò)工作負(fù)載性能和效率的功能,其中包括新媒體加速,可增強(qiáng)實時 OTT、VOD 和廣播媒體的視頻轉(zhuǎn)碼和分析;英特爾高級矢量擴(kuò)展和英特爾高級矩陣擴(kuò)展,可提高推理性能;英特爾QuickAssist 技術(shù),可實現(xiàn)更高效的網(wǎng)絡(luò)和存儲性能;英特爾 vRAN Boost,可降低虛擬化 RAN 的功耗;并支持英特爾Tiber 邊緣平臺,讓用戶能夠以類似云的簡便性在標(biāo)準(zhǔn)硬件上構(gòu)建、部署、運行、管理和擴(kuò)展邊緣和人工智能解決方案。

Lunar Lake 客戶端處理器。與上一代相比,新的性能核心 (P 核心)?和高效核心 (E 核心)?可提供驚人的性能,而系統(tǒng)級芯片功耗降低了 40%。與上一代相比,新的神經(jīng)處理單元速度提高了 4 倍,從而實現(xiàn)了生成式 AI (GenAI) 的相應(yīng)改進(jìn)。此外,新的 X e 2 圖形處理單元核心將游戲和圖形性能提高了 1.5 倍。有關(guān) Lunar Lake 的更多詳細(xì)信息將于9 月 3 日在英特爾酷睿超極本發(fā)布會期間公布。

英特爾 Gaudi 3 AI 加速器。人工智能加速器首席架構(gòu)師 Roman Kaplan 介紹了需要大量計算能力的生成式人工智能模型的訓(xùn)練和部署。隨著系統(tǒng)規(guī)模的擴(kuò)大(從單個節(jié)點擴(kuò)展到龐大的數(shù)千個節(jié)點集群),這會帶來巨大的成本和功耗挑戰(zhàn)。

英特爾 Gaudi 3 OAM 工作示例包英特爾 Gaudi 3 AI 加速器通過優(yōu)化計算、內(nèi)存和網(wǎng)絡(luò)架構(gòu)來解決這些問題,同時采用高效矩陣乘法引擎、兩級緩存集成和廣泛的 RoCE(融合以太網(wǎng)上的 RDMA)網(wǎng)絡(luò)等策略。這使 Gaudi 3 AI 加速器能夠?qū)崿F(xiàn)顯著的性能和能效,使 AI 數(shù)據(jù)中心能夠更經(jīng)濟(jì)高效、更可持續(xù)地運行,解決部署 GenAI 工作負(fù)載時的可擴(kuò)展性問題。

?04、AMD:Zen 5 核心架構(gòu)解析

在 Hot Chips 上,AMD 深入介紹了其全新的 Zen 5 核心架構(gòu),該架構(gòu)將為其下一次高性能 PC 之旅提供動力。AMD 的 Zen 1 核心架構(gòu)于 2017 年首次推出,此后,該公司推出了五種新架構(gòu)(Zen+、Zen 2、Zen 3、Zen 4、Zen 5)。AMD 在本世紀(jì)初推出了 Zen 3 架構(gòu),該架構(gòu)在利用 7nm/6nm 工藝技術(shù)的同時,將 IPC 提高了 19%,具有 8 核復(fù)合體,并增加了每個 CCX 的 L3 緩存。該公司隨后發(fā)布了 Zen 4,帶來了另外 14% 的 IPC 改進(jìn)、AVX-512(FP-256)指令、將 L2 緩存增加一倍至 1 MB、支持 VNNI/BFLOAT16 并采用 5nm 和 4nm 工藝技術(shù)。

今年,AMD 推出了其最新的高性能核心架構(gòu) Zen 5,該架構(gòu)通過 AVX-512 和 FP-512 變體將 IPC 提升了 16%,具有 8 寬調(diào)度、6 個 ALU、雙管道提取/解碼和 4nm/3nm 技術(shù)利用率。今天,AMD 正在 Hot Chips 上深入研究其 Zen 5 的完整架構(gòu)。

AMD 首先闡述了 Zen 5 的設(shè)計目標(biāo)。在性能方面,Zen 5 旨在實現(xiàn) 1T 和 NT 性能的又一次重大提升,平衡跨核 1T/NT 指令和數(shù)據(jù)吞吐量,創(chuàng)建前端并行性,提高執(zhí)行并行性,提高吞吐量,實現(xiàn)高效的數(shù)據(jù)移動和預(yù)取,并支持 AVX512/FP512 數(shù)據(jù)路徑以提高吞吐量和 AI。同時,AMD 希望通過其 Zen 5 和 Zen 5C 核心變體添加新功能,例如額外的 ISA 擴(kuò)展和新的安全功能,以及擴(kuò)展平臺支持。

產(chǎn)品方面,AMD 的 Zen 5 核心將在三輪產(chǎn)品中率先亮相,包括 Ryzen 9000 “Granite Ridge” 臺式機(jī) CPU、Ryzen AI 300 “Strix” 筆記本電腦 CPU 和第五代 EPYC "Turin" 數(shù)據(jù)中心 CPU??偠灾珹MD 表示 Zen 5 再次以大幅提升性能的節(jié)奏交付,AVX512 具有 512 位 FP 數(shù)據(jù)路徑,可提高吞吐量和 AI 性能。高效、高性能、可擴(kuò)展的可配置解決方案:Zen 5 可實現(xiàn)峰值性能,Zen 5c 可實現(xiàn)效率,支持 4nm 和 3nm 工藝節(jié)點。

?05、高通:Oryon 核心解析

在 Hot Chips 2024 上,高通詳細(xì)展示了驍龍 X Elite 中的 高通Oryon CPU。高通 Snapdragon X Elite 是該公司進(jìn)軍基于 Arm 的 PC SoC 的嘗試。

高通Oryon 是該公司為 Snapdragon X Elite SoC 提供動力的 CPU。這是 Nuvia 團(tuán)隊基于 Arm 的核心。這里的集群是相同的,但出于功率目的,它們的運行方式不同。

高通重點關(guān)注的 CPU 核心領(lǐng)域包括指令獲取單元 (IFU)、矢量執(zhí)行單元 (VXU)、重命名和退出單元 (REU)、整數(shù)執(zhí)行單元 (IXU)、內(nèi)存管理單元 (MMU) 以及加載和存儲單元 (LSU)。以下是 Oryon 的提取和解碼規(guī)格。13 周期分支預(yù)測錯誤延遲并非業(yè)界最佳,但高通表示,該設(shè)計已“平衡”。

矢量和標(biāo)量引擎都具有類似的總體布局和物理寄存器文件。兩者都有來自加載/存儲單元的四個數(shù)據(jù)饋送,因此每個周期可以進(jìn)行四次加載。相比之下,AMD 的 Zen 4 在整數(shù)方面每個周期只能處理三次加載,在矢量方面每個周期只能處理兩次加載。

高通選擇了分布式調(diào)度模型。雖然統(tǒng)一調(diào)度器有其優(yōu)勢,但拆分隊列可以更輕松地選擇最早就緒的指令。Oryon 的加載/存儲單元擁有大型 64 個條目保留站或調(diào)度器。核心的調(diào)度容量大于加載/存儲隊列容量,這與我們在其他架構(gòu)中看到的情況相反。

高通指出,更大的調(diào)度器仍能滿足時序要求,并緩解一些瓶頸。此外,調(diào)度器可以執(zhí)行除加載/存儲之外的其他操作(可能是存儲數(shù)據(jù)操作),額外的容量有助于吸收這些操作。Oryon 的 L1 數(shù)據(jù)緩存容量為 96 KB。它是多端口的,并使用代工廠的標(biāo)準(zhǔn)位單元設(shè)計。高通確實評估了使用更大數(shù)據(jù)緩存的可能性,但選擇了 96 KB 的設(shè)計以滿足時序(時鐘速度)要求。

這是使用單線程的內(nèi)存帶寬圖表。單核能夠以略低于 100GB/s 的范圍進(jìn)行傳輸,考慮到 LPDDR5x 內(nèi)存的 135GB/s 平臺帶寬,這非常了不起。

預(yù)取在任何現(xiàn)代核心中都扮演著重要角色。Oryon 特別強(qiáng)調(diào)預(yù)取,各種標(biāo)準(zhǔn)和專有預(yù)取器都會查看訪問模式,并嘗試在指令請求數(shù)據(jù)之前生成請求。高通通過使用各種訪問模式測試軟件可見的加載延遲來展示這一點。預(yù)取器拾取的模式具有較低的延遲。對于簡單的線性訪問模式,預(yù)取器運行得足夠靠前,幾乎可以完全隱藏 L2 延遲。

在系統(tǒng)層面,驍龍 X Elite 擁有 12 個內(nèi)核,分為三個四核集群。之所以沒有使用更大的內(nèi)核集群,是因為在開發(fā)生命周期的早期,L2 互連不支持超過四個內(nèi)核的集群。該功能后來被添加,但并未出現(xiàn)在驍龍 X Elite 中。之前有測試指出,在測試的筆記本電腦中,12 個內(nèi)核受到功率和散熱限制的嚴(yán)重限制。在與產(chǎn)品經(jīng)理的對話中,他們表示,擁有 12 個內(nèi)核讓驍龍 X Elite 能夠擴(kuò)展到更高的功率目標(biāo),并在具有更好散熱的設(shè)備中提供額外的多線程性能。該策略與英特爾和 AMD 形成鮮明對比,后者使用不同的內(nèi)核數(shù)量來實現(xiàn)廣泛的功率目標(biāo)。

高通希望將 Oryon 的用途拓展到筆記本電腦以外的領(lǐng)域。

?06、特斯拉:TTPoE,即特斯拉以太網(wǎng)傳輸協(xié)議

去年在 Hot Chips 2023 上,特斯拉推出了他們的 Dojo 超級計算機(jī)。對于特斯拉來說,機(jī)器學(xué)習(xí)專注于自動駕駛汽車等汽車應(yīng)用,訓(xùn)練涉及視頻,這可能需要大量的 IO 帶寬。例如,對于公司的視覺應(yīng)用,單個張量的大小可能為 1.7 GB。特斯拉發(fā)現(xiàn),即使主機(jī)只是通過 PCIe 復(fù)制數(shù)據(jù),他們的 Dojo 超級計算機(jī)的吞吐量也可能受到主機(jī)將數(shù)據(jù)推送到超級計算機(jī)的速度的限制。

特斯拉通過增加更多主機(jī)和將這些額外主機(jī)連接到超級計算機(jī)的廉價方式解決了這個問題。特斯拉沒有使用像 Infiniband 這樣的典型超級計算機(jī)網(wǎng)絡(luò)解決方案,而是選擇通過修改傳輸層來適應(yīng)以太網(wǎng)的需求。TCP 被特斯拉以太網(wǎng)傳輸協(xié)議 (TTPoE) 取代。TTPoE 旨在提供微秒級延遲并允許簡單的硬件卸載。較低級別的層保持不變,讓協(xié)議在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上運行。

TTPoE 的設(shè)計完全由硬件處理,并提供比標(biāo)準(zhǔn) TCP 協(xié)議更好的延遲。因此,與 TCP 相比,TTPoE 的狀態(tài)機(jī)大大簡化。

通過消除 TCP 中的等待狀態(tài),可以減少延遲。在 TCP 中關(guān)閉連接涉及發(fā)送 FIN、等待該 FIN 的確認(rèn),并確認(rèn)該確認(rèn)。此后,連接進(jìn)入 TIME WAIT 狀態(tài),這需要實現(xiàn)等待一段時間,允許任何無序數(shù)據(jù)包安全耗盡,然后新連接才能重用該端口。TTP 刪除 TIME_WAIT 狀態(tài),并將關(guān)閉順序從三次傳輸更改為兩次??梢酝ㄟ^發(fā)送關(guān)閉操作碼并接收確認(rèn)來關(guān)閉 TTP 連接。Tesla 的目標(biāo)是微秒級的延遲,因此即使是毫秒級的 TIME_WAIT 持續(xù)時間也可能導(dǎo)致嚴(yán)重問題。

TCP 以三向 SYN、SYN-ACK、ACK 握手打開連接。TTP 應(yīng)用了與關(guān)閉端類似的優(yōu)化,將握手更改為雙向握手。同樣,打開連接時傳輸次數(shù)越少,延遲就越低。這些簡化的打開和關(guān)閉序列是在硬件中實現(xiàn)的,這也使其對軟件透明。這意味著軟件不必明確創(chuàng)建連接,而是可以告訴硬件它想要向哪個目的地發(fā)送數(shù)據(jù)或從哪個目的地接收數(shù)據(jù)。

與 TCP 一樣,特斯拉使用數(shù)據(jù)包丟棄來進(jìn)行擁塞控制。但由于 TTP 設(shè)計為在低延遲底層網(wǎng)絡(luò)上運行,因此特斯拉能夠采取蠻力方法解決問題。傳統(tǒng)的 TCP 實現(xiàn)會維護(hù)一個滑動擁塞窗口,該窗口限制可以發(fā)送的未確認(rèn)數(shù)據(jù)量。您可以將其視為網(wǎng)絡(luò)中正在傳輸?shù)牧髁?。如果?shù)據(jù)包得到及時確認(rèn),則擁塞窗口會擴(kuò)大,從而增加帶寬。如果數(shù)據(jù)包被丟棄并且在時間閾值內(nèi)未收到確認(rèn),則擁塞窗口會迅速縮小。這讓 TCP 能夠優(yōu)雅地處理各種不同的連接。帶寬將在低延遲、低損耗的家庭本地網(wǎng)絡(luò)中擴(kuò)大,并自然地在與您的互聯(lián)網(wǎng)服務(wù)提供商及其他網(wǎng)絡(luò)的高延遲、高數(shù)據(jù)包丟失鏈接中縮小。

特斯拉不打算在開放互聯(lián)網(wǎng)的低質(zhì)量鏈路上運行 TTP,因此采取了強(qiáng)力擁塞控制方法。擁塞窗口不會根據(jù)數(shù)據(jù)包丟失進(jìn)行縮放。硬件跟蹤 SRAM 緩沖區(qū)中發(fā)送的數(shù)據(jù),這定義了擁塞窗口大小。當(dāng)緩沖區(qū)填滿時,發(fā)送停止,數(shù)據(jù)包丟失通過重新傳輸 SRAM 緩沖區(qū)中保存的數(shù)據(jù)來處理。當(dāng)相應(yīng)的確認(rèn)從另一端返回時,數(shù)據(jù)將從 SRAM 緩沖區(qū)中釋放,從而自然地將滑動窗口向前移動。

特斯拉證明這種方法的合理性是,傳統(tǒng) TCP 擁塞控制算法(如 Reno)的工作時間尺度太長,因此對其 Dojo 超級計算機(jī)應(yīng)用程序無效。

擁塞管理在每個端點上獨立處理,這是 TCP 擁塞愛好者所熟悉的模型。Tesla 提到這一點主要是為了與其他低延遲網(wǎng)絡(luò)(如 Infiniband)形成對比,在這些網(wǎng)絡(luò)中,擁塞控制是在交換機(jī)級別處理的。Infiniband 使用在交換機(jī)級別控制的信用系統(tǒng),不會丟棄數(shù)據(jù)包。如果端點用盡信用,它就會停止發(fā)送。TCP 和 TTP 通過簡單地丟棄數(shù)據(jù)包來處理擁塞,從而消除了單獨發(fā)送信用的需要,并降低了網(wǎng)絡(luò)交換機(jī)的復(fù)雜性。

Tesla 在位于芯片和標(biāo)準(zhǔn)以太網(wǎng)硬件之間的硬件塊中處理其 TTP 協(xié)議。此 MAC 硬件塊由 CPU 架構(gòu)師設(shè)計,并引入了許多 CPU 設(shè)計功能。演示者將其描述為像共享緩存一樣,其中仲裁器在考慮排序風(fēng)險的情況下在請求之間進(jìn)行選擇。

傳輸中的數(shù)據(jù)包在被確認(rèn)后會按順序“退出”,這種機(jī)制讓人想起 CPU 從重新排序緩沖區(qū)按順序退出指令。最突出的資源之一是 1 MB 傳輸 SRAM 緩沖區(qū),它定義了上述擁塞窗口。特斯拉表示,這個大小足以容忍大約 80 微秒的網(wǎng)絡(luò)延遲,而不會造成明顯的帶寬損失。根據(jù)利特爾定律,假設(shè) 1 MB 的傳輸數(shù)據(jù)和 80 微秒的延遲,則會產(chǎn)生 97.65Gbps。這剛好足以使 100 千兆位網(wǎng)絡(luò)接口飽和。TPP MAC 是在 Tesla 所謂的“Dumb-NIC”上實現(xiàn)的。NIC 代表“網(wǎng)絡(luò)接口卡”。之所以被稱為“Dumb”,是因為它盡可能便宜和簡單。Tesla 希望部署大量主機(jī)節(jié)點來為他們的 Dojo 超級計算機(jī)提供數(shù)據(jù),而廉價的網(wǎng)卡有助于以經(jīng)濟(jì)高效的方式實現(xiàn)這一目標(biāo)。

除了 TPP MAC,Mojo 還集成了帶有 PCIe Gen 3 x16 接口的主機(jī)芯片以及 8 GB 的 DDR4。PCIe Gen 3 和 DDR4 并非尖端技術(shù),但有助于控制成本。Mojo 這個名字源于這樣一種理念:額外的主機(jī)節(jié)點會為 Dojo 提供更多的 Mojo,從而保持高性能。

這些 Mojo 卡安裝在遠(yuǎn)程主機(jī)上。當(dāng)工程師需要更多帶寬來將數(shù)據(jù)輸入 Dojo 超級計算機(jī)時,可以從池中拉出遠(yuǎn)程主機(jī)。這些機(jī)器的額外帶寬疊加在現(xiàn)有主機(jī)提供的入口帶寬之上,這些主機(jī)使用去年 Hot Chips 會議上展示的更高成本接口處理器。

總體而言,Mojo 和 TTPoE 協(xié)議提供了一個有趣的視角,展示了如何簡化眾所周知的傳輸控制協(xié)議 (TCP),以用于更高質(zhì)量的超級計算機(jī)內(nèi)部網(wǎng)絡(luò)。雖然該協(xié)議理論上可以在互聯(lián)網(wǎng)上運行,但諸如固定擁塞窗口之類的簡化在互聯(lián)網(wǎng)服務(wù)提供商及其他低質(zhì)量鏈路上效果不佳。與 Infiniband 等其他超級計算網(wǎng)絡(luò)解決方案相比,以太網(wǎng)上的自定義傳輸協(xié)議可能提供足夠的額外帶寬來滿足 Dojo 的需求。

?07、中國香山高性能 RISC-V 處理器亮相

“香山”開源高性能RISC-V處理器核源于中國科學(xué)院在2019年布局的“中國科學(xué)院先導(dǎo)戰(zhàn)略專項”。作為該項目的承擔(dān)單位,中國科學(xué)院計算技術(shù)研究所于2021年成功研制了第一代開源高性能RISC-V處理器核“香山(雁棲湖)”,是同期全球性能最高的開源處理器核。

第二代“香山”(南湖)開源高性能RISC-V處理器核發(fā)布,是我國首款對標(biāo)A76的高性能開源RISC-V處理器核。第三代“香山”(微架構(gòu)代號是昆明湖)生產(chǎn)線瞄準(zhǔn)的是 Arm Neoverse N2。

以上是“昆明湖”和“南湖”芯片與Arm Neoverse N2和 Arm Cortex A76 的比較。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
MCF5282CVM66 1 Freescale Semiconductor MCF5282 V2CORE 512KFLASH
$40.57 查看
ATXMEGA64A3U-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64

ECAD模型

下載ECAD模型
$4.53 查看
ATMEGA328P-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32

ECAD模型

下載ECAD模型
$2.05 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術(shù)速遞、趨勢解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國半導(dǎo)體產(chǎn)業(yè),我們一直在路上。