提起英偉達,你覺得它是個什么公司?
如今,這家萬億市值的芯片龍頭似乎很難用一個或幾個詞來概括了。不過英偉達的護城河卻多年沒變,主要有三個。其中兩個是大家都熟悉的:GPU芯片硬件、CUDA編程軟件。硬件負責堆算力,軟件負責構(gòu)建生態(tài)。這一軟一硬,讓英偉達在人工智能的大潮中一直「獨孤求敗」,當然也讓這家公司的股價市值在各家芯片公司中一直「獨孤求敗」。
不過,英偉達還有一個或許并不為人所知的隱形護城河:網(wǎng)絡。
1、需求:既要又要
事情的起源,還是由于人工智能和大模型的爆發(fā)。大模型之所以「大」,說的就是模型的參數(shù)量大、用于訓練的數(shù)據(jù)多、訓練系統(tǒng)的規(guī)模大。它也成了一個算力吞金獸,訓練一個大模型消耗的成本都是天文數(shù)字量級。
前不久斯坦福大學的李飛飛教授團隊發(fā)布年度報告,數(shù)據(jù)顯示GPT-4的訓練成本超過7800萬美元,谷歌Gemini Ultra的訓練成本更是超過驚人的1.91億美元。
要知道,這些天文數(shù)字的費用,絕大部分都花在了GPU上。
也有數(shù)據(jù)顯示,Meta訓練650億參數(shù)的Llama模型消耗了100萬GPU小時,谷歌訓練5400億參數(shù)的PaLM模型消耗了2.56乘以10的24次方FLOPS的算力。
所以,單個芯片算力再強,也根本沒辦法滿足大模型訓練的需求。于是多芯片之間的互連就成了大模型時代的關鍵技術。甚至有大佬這么說,就算使用算力稍差的GPU,只要多芯片互連做得好,整體算力就不會掉。這是由于系統(tǒng)整體的瓶頸已經(jīng)從數(shù)據(jù)計算,變成了數(shù)據(jù)搬運。
別忘了,網(wǎng)絡,是英偉達的「隱形」護城河。
為了降低成本,讓更多人能參與大模型煉丹、或者將訓練好的大模型部署到實際應用中,各家科技大廠也想了很多招。比如,人們搞出來了一個AI數(shù)據(jù)中心的概念。和傳統(tǒng)的數(shù)據(jù)中心相比,AI數(shù)據(jù)中心它從設計伊始就圍繞AI需求,顧名思義就是專門為AI服務的。
但如果我們細看這個AI數(shù)據(jù)中心,其實還分成兩個主要場景。一個是老黃多次提到的「AI工廠」,你可以把它想象成一個擁有成千上萬個最強GPU「工人」的真·工廠,而這里生產(chǎn)的產(chǎn)品,就是訓練好的大模型。通常來說,這種AI工廠的模式是面向超大規(guī)模的重型負載。這種模式的好處是能減輕科技公司從頭搭建自己的AI基礎設施的繁瑣工作,用工廠實現(xiàn)AI訓練的外包。
在AI工廠里,追求的終極目標就是超高性能,所以英偉達使用了NVLink和InfiniBand這些超高速超低延時的網(wǎng)絡技術進行GPU之間的互連。通常來說,最先進的NVLink能連接8到500張以上的GPU卡,而且是天然的無損網(wǎng)絡,因此能夠?qū)崿F(xiàn)性能天花板。但是,這些定制化網(wǎng)絡的成本太高,因此注定不能適用于所有人。
于是還有第二個AI數(shù)據(jù)中心的場景,名叫AI云。和我們熟悉的云計算相似,AI云本質(zhì)上也是將AI基礎設施和算力統(tǒng)統(tǒng)云化,能讓更多人以更低成本使用云端的AI資源。和AI工廠不同,AI云更多面向不那么重型的負載,比如模型微調(diào)、中小模型的訓練以及各種推理場景。
正因如此,性能在這里或許不是最重要因素,成本才是。
當然,如果能既要又要,就更好了。
在傳統(tǒng)云計算中,成千上萬臺計算機都是通過以太網(wǎng)互連的。事實上,以太網(wǎng)這個技術在上個世紀七十年代被發(fā)明之后,很快就成為數(shù)據(jù)中心、云計算、網(wǎng)絡通信、工業(yè)控制等關鍵領域的基石性技術。對于AI云來說,重新自立門戶面臨技術和生態(tài)兩座大山,所以最明智的選擇,仍然是兼容現(xiàn)有的基于以太網(wǎng)的云網(wǎng)絡架構(gòu)。
只不過,在AI時代,傳統(tǒng)以太網(wǎng)的最大問題就是性能。如果既要以太網(wǎng)的生態(tài)和靈活性、又要追求高性能,那勢必就要面向以太網(wǎng)進行技術變革。
而這,恰恰是英偉達Spectrum-X網(wǎng)絡平臺出現(xiàn)的本質(zhì)邏輯。
2、方案:全棧
問題來了,和傳統(tǒng)以太網(wǎng)相比,面向AI計算的以太網(wǎng)到底有什么不同呢?
先說結(jié)論,面向AI計算的以太網(wǎng)技術,需要高性能、高穩(wěn)定性、低抖動、性能可預測、能高效應對AI業(yè)務中的突發(fā)流量等新特點。接下來我們詳細介紹。
前面說過,當大模型的規(guī)模逐漸爆炸,系統(tǒng)性能的瓶頸已經(jīng)從單GPU卡算力,轉(zhuǎn)移到了多卡之間網(wǎng)絡互連與通信的帶寬和性能。當GPU數(shù)量擴展到成千上萬時,甚至單一數(shù)據(jù)中心都放不下,還需要不同地域的數(shù)據(jù)中心進行協(xié)同工作,這對于網(wǎng)絡性能更是提出了更高的要求??偠灾?,性能是必須保證的重要需求。
此外,從編程和使用性的角度來看,讓程序員去分別編程這幾萬張GPU卡是不現(xiàn)實的,必須通過軟件將這些計算資源整合在一起,隱藏掉底層的硬件實現(xiàn)細節(jié),讓開發(fā)者看起來就像在編程一個GPU,這也是英偉達說的「數(shù)據(jù)中心即計算機」的概念。
這個概念有點像傳統(tǒng)云計算中的虛擬化,但在傳統(tǒng)云計算中,不同使用者或業(yè)務之間是相對松散和獨立的。而且不同任務對于網(wǎng)絡的抖動、穩(wěn)定性并不一定非常敏感,可能最多就是刷劇的時候緩沖的時間長一點,重傳一遍就OK了。
相比之下,AI云對于穩(wěn)定性的要求就完全高了一個檔次。由于需要N個GPU同步運行單一的AI負載,一旦出現(xiàn)丟包或者抖動,就可能會導致『煉丹』失敗,或者成為系統(tǒng)的性能瓶頸。而且AI訓練時經(jīng)常出現(xiàn)突發(fā)流量,比如GPU計算完成后會瞬間將模型的梯度值通過網(wǎng)絡在GPU之間進行同步,從而帶來突發(fā)的流量高峰。這就需要網(wǎng)絡擁有突發(fā)流量的處理能力和性能預測的能力。
為了解決這些問題,傳統(tǒng)以太網(wǎng)是肯定不夠的。所以英偉達推出了名叫Spectrum-X的新型以太網(wǎng)技術。它的內(nèi)核仍然基于以太網(wǎng)協(xié)議,但面向AI計算特點進行了針對性的優(yōu)化。
首先值得一提的是,Spectrum-X并不是一個單一技術,而是由多種軟硬件技術組成的系統(tǒng)級網(wǎng)絡架構(gòu)。硬件層面,包含名叫Spectrum-4的400G以太網(wǎng)交換機,它集成了1000億個晶體管,交換帶寬總?cè)萘?1.2Tb/s,支持128個400G端口或64個800G端口,是整個Spectrum-X網(wǎng)絡平臺的核心。
在每個網(wǎng)絡節(jié)點,還有BlueField-3 SuperNIC超級網(wǎng)卡,可以直接在端側(cè)進行硬件加速和卸載。在整個網(wǎng)絡的軟件層面,運行著全棧式AI加速軟件,包括面向DPU的DOCA軟件框架、NVIDIA網(wǎng)絡數(shù)字孿生框架NVIDIA AIR、網(wǎng)絡操作系統(tǒng)Cumulus,以及用來做網(wǎng)絡運維管理和監(jiān)控的NetQ工具等等。
3、實例:從不可能到可能
有了底層技術的支持,就能構(gòu)建AI云網(wǎng)絡的關鍵功能了。還拿性能舉例,在Spectrum-X中,可以實現(xiàn)多個任務的并行和性能隔離。也就是說,即使運行了多種不同的任務負載,每個任務都能實現(xiàn)裸金屬(Bare Metal)的性能。這個功能的本質(zhì)是更高效的擁塞控制算法,即單個任務不會擠占全部網(wǎng)絡帶寬,造成三個和尚沒水吃的局面。
技術上看,一個大任務如果發(fā)送不暢就會堵塞整個網(wǎng)絡,導致網(wǎng)路中的其它任務性能下降。通過SuperNIC和交換機進行端到端的協(xié)作,實現(xiàn)了基于硬件的增強擁塞控制和基于優(yōu)先級的流量控制,在無損以太網(wǎng)絡上保證了不會出現(xiàn)丟包或者抖動。這個聽起來技術沒那么復雜,但其實需要依賴SuperNIC和交換機之間非常嚴謹?shù)亩说蕉撕献鱽韺崿F(xiàn),這也是為什么傳統(tǒng)網(wǎng)卡或傳統(tǒng)交換機沒辦法實現(xiàn)這個功能的主要原因。
還有一個很有趣的例子是數(shù)字孿生。這本身是個起源于元宇宙的概念,說的是一個物理實體的虛擬表示,比如我們每個人的數(shù)字分身。這個概念其實在AI數(shù)據(jù)中心里也有很多好處。比如,構(gòu)建一個真實的AI集群是個非常復雜的工作,而且需要大量投入。傳統(tǒng)的方法是先構(gòu)建、再調(diào)試優(yōu)化。但一旦發(fā)現(xiàn)問題,進行調(diào)整和修改的成本也是巨大的。
所以可以使用數(shù)字孿生技術,先構(gòu)建一個數(shù)字AI集群,然后在虛擬集群上完成前面說的仿真驗證、調(diào)試、優(yōu)化等工作,從而加速物理集群的部署和上線,并且大幅降低成本。
為了構(gòu)建數(shù)字孿生的AI集群,軟件肯定還是關鍵。英偉達就推出了NVIDIA AIR平臺,可以免費仿真數(shù)據(jù)中心的關鍵網(wǎng)絡軟件、操作系統(tǒng)和NetQ網(wǎng)絡管理軟件,目前已經(jīng)實現(xiàn)了整個數(shù)據(jù)中心完整的交換網(wǎng)的虛擬實現(xiàn),未來大概率也會加入對BlueField SuperNIC在主機端的支持。
4、啟示:風口背后的邏輯
說了很多AI數(shù)據(jù)中心的網(wǎng)絡變革,也深入介紹了網(wǎng)絡如何成為英偉達的隱形護城河。從英偉達布局AI網(wǎng)絡,其實也能帶給我們很多啟示。
比如,不得不承認老黃的技術遠見。當然這不一定是老黃本人,而是站在老黃背后很多綠廠大佬的集體智慧。但英偉達之所以能抓住這么多風口,離不開技術的布局和深耕。當英偉達開始發(fā)力BlueField DPU時,AI和大模型的浪潮其實還并沒有到來。誰又能想到,這個原本用于傳統(tǒng)云計算數(shù)據(jù)中心的DPU技術,竟然也成為了AI網(wǎng)絡不可或缺的關鍵。
此外,一招鮮、吃遍天的時代已經(jīng)過去了。強如英偉達,也在AI網(wǎng)絡領域布局了多個方向,比如NVLink、InfiniBand、Spectrum-X等多線齊發(fā),用互聯(lián)網(wǎng)黑話來說,就是形成了一套「組合拳」。
另外,英偉達深知,解決問題的關鍵,就是找到關鍵問題。在綠廠自己發(fā)布的《AI時代的網(wǎng)絡技術》白皮書里,他們就總結(jié)凝練了傳統(tǒng)以太網(wǎng)和AI以太網(wǎng)的區(qū)別,也梳理了以CPU為核心的網(wǎng)絡與以GPU為核心的網(wǎng)絡的區(qū)別。關鍵問題抓的非常到位,推薦大家看看,原文我會發(fā)到社群中,記得掃碼加小助手進群。
回到文章最開始的問題,英偉達到底是什么公司?
用老黃的話說:英偉達不是硬件公司,而是軟件公司,更是個提供數(shù)據(jù)中心的全棧公司。
(注:本文不代表老石任職單位的觀點。)