ChatGPT帶火了智算中心的概念,然而從國際的角度來講,并沒有專門定義什么是智算中心(AI DC),但在中國被定義為一個新的品類。
那么到底什么是智算中心呢?在數(shù)據(jù)中心中,為了能夠完成大模型的訓(xùn)練和推理,引入了GPU服務(wù)器部署,這樣的數(shù)據(jù)中心我們就稱之為智算中心。所以說到底,智算中心是數(shù)據(jù)中心中的一類。
智算中心有三大要素,即:算力、網(wǎng)絡(luò)和數(shù)據(jù),這三者相互關(guān)聯(lián),不可分割。我們以網(wǎng)絡(luò)為例,由于引入了GPU的并行運(yùn)算,算力水平大大提升,就好像馬路上并行行駛的汽車增加了,那么車道數(shù)也要增加一樣,因此網(wǎng)絡(luò)帶寬的能力需要急速提升。
智算中心提速,網(wǎng)絡(luò)水平跟上了嗎?
為什么這里講“急劇提升”,給大家講講實(shí)際情況。前幾年,當(dāng)我們提到400G、800G覺得好像很遙遠(yuǎn),因?yàn)榇蠹页S玫倪€是10G、25G、50G網(wǎng)絡(luò)。但是,GPU并行計算一下子把網(wǎng)絡(luò)推到了400G以上。
圖 | 2027-2028年前后,數(shù)據(jù)中心中GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量,來源:康普,與非網(wǎng)攝制
與此同時,近年來,在數(shù)據(jù)中心中,GPU服務(wù)器的占比越來越高。根據(jù)Dell’Oro Group的數(shù)據(jù)顯示,預(yù)計在3-5年后,即2027-2028年前后,GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量。
如果一臺智算設(shè)備內(nèi)部有8個GPU卡,它內(nèi)部通訊要達(dá)到900G,那么外部通信用的InfiniBand網(wǎng)絡(luò)或以太網(wǎng)也需要跟上步伐,提升到400G,甚至800G。換言之,隨著智算的快速推進(jìn),400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位,包括400G、800G和1.6T。
此外,我們看到,GPU算力正在以每年翻兩倍的速度增長,10年就是1000倍,那就預(yù)示著,網(wǎng)絡(luò)也需要10年提升1000倍,所以網(wǎng)路的發(fā)展已經(jīng)滯后于算力。
中國為何選擇“原生非無損網(wǎng)絡(luò)”的以太網(wǎng)?
前面提到,CPU、GPU之間的內(nèi)部通信采用的是PCIe、NVLink接口標(biāo)準(zhǔn),而外部傳輸是用的InfiniBand和以太網(wǎng)接口標(biāo)準(zhǔn),在智算中心中我們常稱它們?yōu)?strong>“IB”和“ROCE”。那么,這兩種標(biāo)準(zhǔn)間有什么區(qū)別呢?哪種標(biāo)準(zhǔn)更適合中國智算中心市場?
IB技術(shù)來自于Mellanox,是一種專為高性能計算(HPC)和數(shù)據(jù)中心環(huán)境設(shè)計的高速通信協(xié)議,以其低延遲和高吞吐量而聞名,后來Mellanox被英偉達(dá)收購了,IB技術(shù)幾乎成為了英偉達(dá)生態(tài)專屬。
相比無損網(wǎng)絡(luò)IB,ROCE屬于后起之秀,它實(shí)際上是一種借助以太網(wǎng)來支持遠(yuǎn)程直接內(nèi)存訪問(RDMA)的機(jī)制。由于從誕生的機(jī)理來講,以太網(wǎng)就不是一個專用網(wǎng)絡(luò),而是一個盡力而為的網(wǎng)絡(luò),所以很多人會質(zhì)疑ROCE能否追上IB。
圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健,來源:康普
對此,康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健表示:“IB在整個智算里面的效率、穩(wěn)定性要比以太網(wǎng)好,同時以太網(wǎng)很難做到無損也不假,但現(xiàn)在的以太網(wǎng)從協(xié)議層面、硬件層面,以及一些技術(shù)點(diǎn)上做了很多優(yōu)化,幾乎可以做到無損。我認(rèn)為ROCE的速率發(fā)展跟IB的速率發(fā)展差不多,都會快速地進(jìn)入到800G、1.6T時代。”
此外,吳健認(rèn)為:“當(dāng)前IB跟ROCE是共存的狀態(tài),這是因?yàn)橛ミ_(dá)主導(dǎo)了整個AI,而英偉達(dá)提倡用IB,但是在中國,以太網(wǎng)取代IB是勢在必行?!?/p>
“在中國,沒有一個純粹的AI數(shù)據(jù)中心,GPU集群往往是數(shù)據(jù)中心中的一部分,或者屬于Cloud中的一部分,如果要跟Cloud去做融合,那就一定會用到以太網(wǎng),因?yàn)?strong>在融合方面以太網(wǎng)肯定比IB要好?!眳墙〗忉尩?。
網(wǎng)絡(luò)帶寬大幅提升,倒逼光互聯(lián)方案發(fā)展
智算中心中的網(wǎng)絡(luò)帶寬急需提升,為了提高端口密度并減少端口所需的空間?,同時降低系統(tǒng)功耗,可以容納多根光纖的MPO(Multi-fiber Push On)光纖連接器被大量使用,比如MPO16、MPO8;同時CPO(Co-Package)共封裝光學(xué)連接方案將在800G和1.6T時代占據(jù)主流。
目前來看,可能IB的情況基本是以MPO8為主,ROCE以太以MPO16為主,它采用的收發(fā)器是有區(qū)別的,但是收發(fā)器出來之后光纖連接對于布線設(shè)計來講是一樣的。
關(guān)于光互聯(lián)方案,當(dāng)前,數(shù)據(jù)中心光互聯(lián)的方案主要有三種:
圖 | 三種光互聯(lián)方案的對比,來源:康普,與非網(wǎng)攝制
第一種是傳統(tǒng)的光模塊連接方案,其中可插拔的光模塊就是光引擎,光纖插在光模塊上,通過SerDes通道將信號傳送至網(wǎng)絡(luò)交換芯片。這種方案中采用了DSP芯片對高速信號進(jìn)行信號處理,來降低誤碼率,所以在鏈路性能、靈活性、可維護(hù)性和不同廠商間的互操作性方面表現(xiàn)良好,但DSP的功耗較大,以400G光模塊為例,當(dāng)前市場上采用7nm工藝的DSP芯片功耗通常要跑到4W,占整個光模塊功耗的50%左右,而光模塊的功耗大約占交換機(jī)整機(jī)功耗的40%以上,所以在低功耗方面表現(xiàn)不佳。此外,由于交換芯片和光引擎是分開布局的,所以在信號延遲表現(xiàn)方面也一般。
第二種是LPO線性驅(qū)動可插拔光模塊連接方案,顧名思義,該方案采用了線性直驅(qū)技術(shù),去除了傳統(tǒng)光模塊的DSP/CDR芯片,將系統(tǒng)功耗和延時做了優(yōu)化,同時成本也相應(yīng)降低,但也正因?yàn)樽隽撕喕幚恚栽谙到y(tǒng)誤碼率和傳輸距離方面有所犧牲。不過該方案依舊保留了傳統(tǒng)光模塊方案的可熱插拔的特性,所以在后期維護(hù)方面存在優(yōu)勢,不至于單個元件損壞,要拆機(jī)才能維修。
第三種是CPO共封裝光學(xué)連接方案,在這種方案中,最大的改動就是將交換芯片和光引擎進(jìn)行了合封,不再采用可插拔光模塊的形式,帶來的好處是電信號在光引擎和交換芯片之間的鏈路縮短了,傳輸速率會更快,功耗更低,效率更高,且在尺寸方面也會縮小不少。有行業(yè)數(shù)據(jù)顯示,采用CPO的方案,相比于光模塊的方案,功耗可以降低50%,且能滿足高速、高密度互聯(lián)的傳輸場景,比如未來的智算中心。
吳健認(rèn)為:“CPO方案將在800G和1.6T時代開始量產(chǎn)出貨。LPO作為這種方案還會存在一段時間,至于何時CPO將在智算中心中全面取代LPO,取決于光模塊廠商的‘掙扎’。不過,當(dāng)光互聯(lián)的方式演進(jìn)到CPO(Co-Package,共封裝模式)時,沒有了AOC(Active Optic Cable),就會出現(xiàn)標(biāo)準(zhǔn)布線系統(tǒng),光纖直接和設(shè)備相連,更利好布線設(shè)計和部署?!?/p>
智算中心部署仍面臨多重挑戰(zhàn),如何破局?
“雖然布線只是智算中心成本支出中的很小部分,但是其重要性不可忽視,我們不能讓布線成為智算中心這個大工程中的最大短板?!?康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐如是說。
圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐
這道出了布線的重要性,實(shí)際也是如此。舉個例子,同樣是400G、800G、1.6T也會有很多選擇,如下圖所示。
圖 | 網(wǎng)絡(luò)帶寬部署選擇方案,來源:康普,與非網(wǎng)攝制
更何況,智算中心還面臨AOC等有源跳線施工難、機(jī)房環(huán)境潔凈度差、線纜拉力問題、光纖線槽與物理保護(hù)問題、接頭性能與光線品質(zhì)問題、線纜外皮等級問題等挑戰(zhàn)。
關(guān)于AOC等有源跳線施工難挑戰(zhàn),吳健透露:“當(dāng)前,不論是在傳統(tǒng)的光模塊連接方案還是在LPO線性驅(qū)動可插拔光模塊連接方案部署中,AOC的使用都遇到了很多麻煩,這種形態(tài)的產(chǎn)品在施工的時候特別容易斷,所以現(xiàn)在基本不會用它,而是采用標(biāo)準(zhǔn)模塊、標(biāo)準(zhǔn)布線的方式。”這也從側(cè)面印證了AOC將退出時代舞臺,同時在智算中心應(yīng)用中,CPO方案下的標(biāo)準(zhǔn)布線將成為未來主流。
所以,在智算中心建設(shè)過程中,選擇一家綜合實(shí)力強(qiáng),產(chǎn)品有保障的網(wǎng)絡(luò)架構(gòu)與布線設(shè)計公司來輔助部署,就會事半功倍。
值得一提的是,康普在智算中心布線領(lǐng)域,有著較強(qiáng)的前瞻性,在兩年前就推出了模塊化和超低損耗的端到端高速光纖平臺Propel?,來滿足服務(wù)器不同鏈路中不同網(wǎng)絡(luò)帶寬和連接方案的布線所需。
關(guān)于品質(zhì)保障這一塊,陳嵐強(qiáng)調(diào):“康普的光纖產(chǎn)品有25年質(zhì)保期,并且針對25年質(zhì)保期內(nèi)的應(yīng)用和性能提供了一份白皮書,由于在設(shè)計時就留了性能余量,因此經(jīng)得起時間考驗(yàn),客戶一旦測試出不達(dá)白皮書中所述的標(biāo)準(zhǔn),康普會免費(fèi)更換升級?!?/p>
寫在最后
高盛的報告預(yù)測,智算中心的硬件發(fā)展峰值時間將出現(xiàn)在2032-2033年間,峰值過后就是后期的軟件、算法、數(shù)據(jù)這方面的事情,這意味著未來的8年里,智算中心硬件將保持快速增長。
而對于中國市場來講,這幾年對智算中心的投入很多源于“熱錢”,還缺乏長期的規(guī)劃和部署,所以中國的智算中心/數(shù)據(jù)中心的生命周期大約在4年左右,遠(yuǎn)低于國外發(fā)達(dá)國家產(chǎn)業(yè)化布局下的15-20年,這將給整個AI產(chǎn)業(yè)發(fā)展帶來困擾。而其中影響智算中心/數(shù)據(jù)中心生命周期的點(diǎn),涵蓋機(jī)柜電源、布線、網(wǎng)絡(luò)等。
此外,當(dāng)前大家把更多的關(guān)注放在GPU等核心芯片上,事實(shí)上真正國產(chǎn)化低的是高速網(wǎng)卡,目前基本都是外購英偉達(dá)等企業(yè)的,所以這也是接下來AI產(chǎn)業(yè)要克服的重點(diǎn)。