據(jù)最新消息披露,包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特爾(Intel)、Meta和微軟(Microsoft)在內(nèi)的八家公司宣告,他們已經(jīng)為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink(Ultra Accelerator Link)。通過為人工智能加速器之間的通信建立一個開放標(biāo)準(zhǔn),以打破市場領(lǐng)導(dǎo)者 Nvidia的壟斷。
眾所周知,英偉達(dá)是人工智能芯片市場最大的參與者,他們在GPU上擁有了絕對領(lǐng)先的份額。但其實除此以外,英偉達(dá)還擁有一系列技術(shù),可用于在多個 GPU 和系統(tǒng)上擴(kuò)展工作負(fù)載。其中包括其片上和封裝互連、用于服務(wù)器或 pod 中 GPU 到 GPU 通信的 NVLink、用于擴(kuò)展 pod 之外的 Infiniband 以及用于連接到更廣泛基礎(chǔ)設(shè)施的以太網(wǎng)。
現(xiàn)在,該行業(yè)的其他公司正試圖用開放標(biāo)準(zhǔn)進(jìn)行反擊,以爭奪這些細(xì)分市場。去年,我們看到了 Ultra Ethernet,它使用增強(qiáng)型以太網(wǎng)旨在取代 Nvidia 的 InfiniBand 高性能互連,后者已迅速成為連接 GPU 加速節(jié)點的事實標(biāo)準(zhǔn),并且獲得了豐厚的利潤。
今年,我們將獲得 Ultra Accelerator Link 或 UALink ,一項旨在取代 Nvidia 的 NVLink 協(xié)議和 NVLink Switch(有時稱為 NVSwitch)內(nèi)存結(jié)構(gòu)新標(biāo)準(zhǔn)。在具體介紹UALink 之前,我們先對Nvlink進(jìn)行介紹。
英偉達(dá)的隱形護(hù)城河
過去,我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠然,經(jīng)過多年的投入,他們已經(jīng)建立起了難以逾越的優(yōu)勢。但除此以外,如上所述,英偉達(dá)還有很多隱形護(hù)城河,NVLink就是其中的一個,一個為GPU到GPU互聯(lián)提供高速連接的技術(shù)。
在摩爾定律逐漸失效,但對算力要求越來越高的當(dāng)下,這種互聯(lián)顯得尤為必要。
按照英偉達(dá)在官方網(wǎng)站中表示,NVLink 是全球首創(chuàng)的高速GPU 互連技術(shù),為多GPU 系統(tǒng)提供另一種選擇,與傳統(tǒng)的PCI-E 解決方案相比,速度方面擁有顯著提升。使用NVLink 連接兩張NVIDIA GPU,即可彈性調(diào)整記憶體與效能,滿足專業(yè)視覺運算最高工作負(fù)載的需求。
相關(guān)資料顯示,NVLink 最初是一種將 Nvidia GPU 卡上的內(nèi)存組合在一起的方法,最終 Nvidia Research 實現(xiàn)了一個交換機(jī)來驅(qū)動這些端口,允許 Nvidia 以杠鈴?fù)負(fù)洌╞arbell topology )連接兩個以上的 GPU,或以十字交叉方形拓?fù)洌╟risscrossed square topology)連接四個 GPU,這種拓?fù)鋷资陙硗ǔS糜趧?chuàng)建基于 CPU 的雙插槽和四插槽服務(wù)器。
幾年前,AI 系統(tǒng)需要八個或十六個 GPU 共享內(nèi)存,以簡化編程,并使這些 GPU 能夠以內(nèi)存速度(而不是網(wǎng)絡(luò)速度)訪問數(shù)據(jù)集。因此,實驗室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平臺上迅速商業(yè)化。
目前,NVLink可在 GPU 之間以每秒 1.8 TB 的速度傳輸數(shù)據(jù)。此外,還有一個 NVLink 機(jī)架級交換機(jī),能夠在無阻塞計算結(jié)構(gòu)中支持多達(dá) 576 個完全連接的 GPU。通過 NVLink 連接的 GPU 稱為“pod”,表示它們有自己的數(shù)據(jù)和計算域。
其實除了Nvlink以外,還有兩種連接GPU的方法,分別是PCI總線和Server-to-Server互聯(lián)。據(jù)了解,標(biāo)準(zhǔn)服務(wù)器通常可以在 PCI 總線上支持 4-8 個 GPU。通過使用GigaIO FabreX 內(nèi)存結(jié)構(gòu)等技術(shù),可以將這個數(shù)字增加到 32 個。
除此以外,以太網(wǎng)或 InfiniBand可以連接包含 GPU 的服務(wù)器。這種連接級別通常稱為橫向擴(kuò)展,其中較快的多 GPU 域通過較慢的網(wǎng)絡(luò)連接以形成大型計算網(wǎng)絡(luò)。
其實自從比特開始在機(jī)器之間移動以來,以太網(wǎng)一直是計算機(jī)網(wǎng)絡(luò)的主力。最近,通過引入超級以太網(wǎng)聯(lián)盟,該規(guī)范已被推動以提供高性能。事實上,英特爾已經(jīng)在以太網(wǎng)上插上了互連旗幟,因為英特爾 Gaudi -2 AI 處理器在芯片上擁有 24 個 100 千兆以太網(wǎng)連接。
不過,Nvidia 沒有加入超級以太網(wǎng)聯(lián)盟,因為他們在 2019 年 3 月收購 Mellanox 后,基本上獨占了高性能 InfiniBand 互連市場。超級以太網(wǎng)聯(lián)盟旨在成為其他所有人的“InfiniBand”。值得一提的是,英特爾曾經(jīng)高舉 InfiniBand 大旗。
因此在這種情況下,對于其他人來說,除了用于連接 MI300A APU 的 AMD Infinity Fabric 之外,沒有其他選擇。與 InfiniBand/以太網(wǎng)的情況類似,需要某種“超級”競爭對手聯(lián)盟來填補(bǔ)非 Nvidia 的“pod 空缺”。而這正是UALink推出的重要原因。
什么是UALink?
超級加速器鏈(Ultra Accelerator Link,UALink)同樣是一種可提高新一代AI/ML集群性能的高速加速器互連技術(shù)。八家發(fā)起廠商(和超級以太網(wǎng)聯(lián)盟一樣,我們也沒有在UAlink聯(lián)盟中看到英偉達(dá)的身影)也成立了一個開放行業(yè)標(biāo)準(zhǔn)機(jī)構(gòu)來制定相關(guān)技術(shù)規(guī)范,以促進(jìn)新使用模式所需的突破性性能,同時支持?jǐn)?shù)據(jù)中心加速器用開放生態(tài)系統(tǒng)的發(fā)展。
在他們看來,發(fā)起這個標(biāo)準(zhǔn)很有必要。因為隨著AI計算需求的增長,擁有穩(wěn)健、低延遲且可高效縱向擴(kuò)展的網(wǎng)絡(luò),從而輕松將計算資源添加到單個實例中至關(guān)重要。而針對縱向擴(kuò)展功能制定開放的行業(yè)標(biāo)準(zhǔn)規(guī)范,有助于為AI工作負(fù)載創(chuàng)建開放的高性能環(huán)境,從而提供盡可能高的性能。
正是由于這個原因,UALink和行業(yè)規(guī)范對于新一代AI數(shù)據(jù)中心用AI和機(jī)器學(xué)習(xí)、HPC和云應(yīng)用程序的接口標(biāo)準(zhǔn)化及其實現(xiàn)至關(guān)重要。該工作組將制定相應(yīng)的規(guī)范來界定AI計算容器組中加速器與交換機(jī)之間進(jìn)行縱向擴(kuò)展通信所需的高速低延遲互連。
從相關(guān)資料可以看到,Ultra Accelerator Link 聯(lián)盟的核心于去年 12 月就已經(jīng)建立,當(dāng)時 CPU 和 GPU 制造商 AMD 和 PCI-Express 交換機(jī)制造商博通表示,博通未來的 PCI-Express 交換機(jī)將支持 xGMI 和 Infinity Fabric 協(xié)議,用于將其 Instinct GPU 內(nèi)存相互連接,以及使用 CPU NUMA 鏈接的加載/存儲內(nèi)存語義將其內(nèi)存連接到 CPU 主機(jī)的內(nèi)存。相關(guān)消息顯示,這將是未來的“Atlas 4”交換機(jī),它將遵循 PCI-Express 7.0 規(guī)范,并于 2025 年上市。博通數(shù)據(jù)中心解決方案集團(tuán)副總裁兼總經(jīng)理 Jas Tremblay 證實,這項工作仍在進(jìn)行中,但不要妄下結(jié)論。換而言之,我們不要以為 PCI-Express 是唯一的 UALink 傳輸,也不要以為 xGMI 是唯一的協(xié)議。
AMD 為 UALink 項目貢獻(xiàn)了范圍更廣的 Infinity Fabric 共享內(nèi)存協(xié)議以及功能更有限且特定于 GPU 的 xGMI,而所有其他參與者都同意使用 Infinity Fabric 作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理 Sachin Katti 表示,由 AMD、博通、思科系統(tǒng)、谷歌、惠普企業(yè)、英特爾、Meta Platforms 和微軟組成的 Ultra Accelerator Link“推動者小組”正在考慮使用以太網(wǎng)第 1 層傳輸層,并在其上采用 Infinity Fabric,以便將 GPU 內(nèi)存粘合到類似于 CPU 上的 NUMA 的巨大共享空間中。
我們分享了如何使用以太網(wǎng)將 Pod 鏈接到更大的集群:
如thenextplatform所說,沒人期望將來自多個供應(yīng)商的 GPU 連接到一個機(jī)箱內(nèi),甚至可能是一個機(jī)架或多個機(jī)架中的一個Pod內(nèi)。但 UALink 聯(lián)盟成員確實相信,系統(tǒng)制造商將創(chuàng)建使用 UALink 的機(jī)器,并允許在客戶構(gòu)建其艙時將來自許多參與者的加速器放入這些機(jī)器中。您可以有一個帶有 AMD GPU 的Pod,一個帶有 Intel GPU 的Pod,另一個帶有來自任意數(shù)量的其他參與者的自定義加速器Pod。它允許在互連級別實現(xiàn)服務(wù)器設(shè)計的通用性,就像 Meta Platforms 和 Microsoft 發(fā)布的開放加速器模塊 (OAM) 規(guī)范允許系統(tǒng)板上加速器插槽的通用性一樣。
總而言之,UALink 的一大優(yōu)勢是讓業(yè)內(nèi)其他所有人都有機(jī)會與 NVIDIA 保持同步。NVIDIA 現(xiàn)在有能力制造NVSwitch盒并將這些 NVSwitch 托盤放入NVIDIA DGX GB200 NVL72等產(chǎn)品中。
英特爾今年的 AI 加速器銷售額達(dá)數(shù)億美元,這可能意味著它只賣出幾萬臺加速器。AMD 今年將銷售數(shù)十億美元的 MI300X,但這仍然遠(yuǎn)不及 NVIDIA 的 AI 規(guī)模。擁有 UALink 允許像 Broadcom 這樣的公司制造 UALink 交換機(jī)來幫助其他公司擴(kuò)大規(guī)模,然后在多家公司的加速器上使用這些交換機(jī)。
我們已經(jīng)報道了 Broadcom Atlas 交換機(jī)計劃與AMD Infinity Fabric AFL Scale Up 競爭 NVIDIA NVLink 即將出現(xiàn)在 PCIe Gen7 中的 Broadcom 交換機(jī)上。我們在簡報中被告知,這些可能會實現(xiàn) UALink 的 V1.0。當(dāng)然,UALink V1.0 規(guī)范尚未出臺。
他們表示,1.0版的規(guī)范將允許在AI容器組中連接不超過1,024個加速器,支持在容器組中掛載到加速器(例如GPU)的內(nèi)存之間進(jìn)行直接加載和存儲。UALink發(fā)起人工作組已經(jīng)成立了UALink聯(lián)盟,預(yù)計將在2024年第三季度正式成立。1.0版規(guī)范預(yù)計將于2024年第三季度推出,并向參加超級加速器鏈(UALink)聯(lián)盟的公司開放。
CXL怎么辦?
其實在過去幾年,行業(yè)參與者已經(jīng)承諾過在 PCI-Express 結(jié)構(gòu)上運行的 Compute Express Link (CXL) 協(xié)議將提供同樣的功能。例如CXLmem 子集就已經(jīng)提供了 CPU 和 GPU 之間的內(nèi)存共享嗎。
但在分析人士看來,PCI-Express 和 CXL 是更廣泛的傳輸和協(xié)議。
Katti 指出,AI 加速器模塊的內(nèi)存域比 CPU 集群的內(nèi)存域大得多,我們知道 CPU 集群的擴(kuò)展范圍從 2 個到 4 個,有時到 8 個,很少到 16 個計算引擎。許多人認(rèn)為,AI 加速器的 GPU 模塊可擴(kuò)展到數(shù)百個計算引擎,并且需要擴(kuò)展到數(shù)千個。更重要的是,與 CPU NUMA 集群不同,GPU 集群(尤其是運行 AI 工作負(fù)載的集群)對內(nèi)存延遲的容忍度更高。
為此The Next Platform表示,我們不要指望看到 UALinks 將 CPU 捆綁在一起,但沒有理由相信未來的 CXL 鏈接最終不會成為 CPU 共享內(nèi)存的標(biāo)準(zhǔn)方式——甚至可能跨越不同的架構(gòu)。
這實際上是為了打破 NVLink 在互連結(jié)構(gòu)內(nèi)存語義方面的壟斷。無論 Nvidia 如何使用 NVLink 和 NVSwitch,它的幾家競爭對手都需要為潛在客戶提供可靠的替代方案——無論他們是銷售 GPU 還是其他類型的加速器或整個系統(tǒng)——這些潛在客戶肯定希望為 AI 服務(wù)器節(jié)點和機(jī)架式設(shè)備提供比 Nvidia 互連更開放、更便宜的替代方案。
“當(dāng)我們審視整個數(shù)據(jù)中心對 AI 系統(tǒng)的需求時,有一點非常明顯,那就是 AI 模型繼續(xù)大規(guī)模增長,”AMD 數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理 Forrest Norrod 說道?!懊總€人都可以看到,這意味著對于最先進(jìn)的模型,許多加速器需要協(xié)同工作以進(jìn)行推理或訓(xùn)練。能夠擴(kuò)展這些加速器對于推動未來大規(guī)模系統(tǒng)的效率、性能和經(jīng)濟(jì)性至關(guān)重要。擴(kuò)展有幾個不同的方面,但 Ultra Accelerator Link 的所有支持者都非常強(qiáng)烈地感受到,行業(yè)需要一個可以快速推進(jìn)的開放標(biāo)準(zhǔn),一個允許多家公司為整個生態(tài)系統(tǒng)增加價值的開放標(biāo)準(zhǔn)。并且允許創(chuàng)新不受任何一家公司的束縛而快速進(jìn)行?!?/p>
毫無疑問,AMD Forrest Norrod說的這家公司就是Nvidia,他們通過投資了InfiniBand,并創(chuàng)建了具有絕對超大網(wǎng)絡(luò)帶寬的 NVSwitch 來為 GPU 進(jìn)行 NUMA 集群。當(dāng)然,他們最初這樣做的是因為 PCI-Express 交換機(jī)在總帶寬方面仍然有限。
有趣的是,UALink 1.0 規(guī)范將在今年第三季度完成,屆時 Ultra Accelerator Consortium 也將加入進(jìn)來,擁有知識產(chǎn)權(quán)并推動 UALink 標(biāo)準(zhǔn)的發(fā)展。今年第四季度,UALink 1.1 更新將發(fā)布,這將進(jìn)一步提高規(guī)模和性能。目前尚不清楚 1.0 和 1.1 UALink 規(guī)范將支持哪些傳輸,或者哪些將支持 PCI-Express 或以太網(wǎng)傳輸。
使用 NVLink 4 端口的 NVSwitch 3 結(jié)構(gòu)理論上可以在共享內(nèi)存 pod 中跨越多達(dá) 256 個 GPU,但 Nvidia 的商業(yè)產(chǎn)品僅支持 8 個 GPU。借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 理論上可以支持跨越多達(dá) 576 個 GPU 的 pod,但實際上,商業(yè)支持僅在 DGX B200 NVL72 系統(tǒng)中最多 72 個 GPU 的機(jī)器上提供。
如今,許多公司都在嘗試采用標(biāo)準(zhǔn) PCIe 交換機(jī)并構(gòu)建基于 PCIe 的結(jié)構(gòu)以擴(kuò)展到更多加速器。業(yè)內(nèi)大公司似乎將此視為權(quán)宜之計。相反,NVIDIA 的 NVLink 更像是業(yè)內(nèi)擴(kuò)展的黃金標(biāo)準(zhǔn)。
現(xiàn)在,UAlink團(tuán)隊正準(zhǔn)備發(fā)布專有 NVLink 的公開競爭對手。
所有這些都需要時間。記者在簡報會上問這是否是一個 2026 年左右的實施目標(biāo)。2024 年還太早,即使它被融入到產(chǎn)品中,目前也不太可能成為 2025 年初的產(chǎn)品。如果你看看CXL或UCIe,這些標(biāo)準(zhǔn)需要很長時間才能最終成為產(chǎn)品。2026 年將是一個快速實施的時間。
對于 AMD 和英特爾等公司來說,這提供了一條復(fù)制 NVLink 和 NVSwitch 功能并與其他公司共享開發(fā)成果的途徑。像博通這樣的公司很可能是最大的贏家,因為它定位為非 NVIDIA 系統(tǒng)的連接提供商,無論是用于縱向擴(kuò)展還是橫向擴(kuò)展。無論是 AMD 還是英特爾獲勝,博通都在銷售連接。對于超大規(guī)模企業(yè)來說,無論誰制造端點,投資標(biāo)準(zhǔn)化結(jié)構(gòu)的能力都非常有意義。
順便說一句,在 2019-2020 年期間,行業(yè)考慮將 CXL in-box 和Gen-Z作為擴(kuò)展解決方案。許多當(dāng)年展示 Gen-Z 的人現(xiàn)在都在 AMD 工作,就像 AMD 多年來一直在組建一支團(tuán)隊,他們看到并一直在努力解決擴(kuò)展挑戰(zhàn)。
希望我們能夠盡快看到 UALink 投入使用。對啦,多說一句,貌似沒有看到Marvell的身影?