根據(jù)高盛研究公司(GSR)數(shù)據(jù)報(bào)告顯示,AIGC將推動(dòng)全球國(guó)民生產(chǎn)總值(GDP)增長(zhǎng)7%,帶來(lái)近7萬(wàn)億美元的GDP增長(zhǎng),并在未來(lái)使生產(chǎn)力提高1.5%。面對(duì)如此巨大的價(jià)值涌現(xiàn),每個(gè)行業(yè)、每家企業(yè)都希望率先推開(kāi)AI時(shí)代之門。
而在面向AI大模型的探索中,智算的效率與成本成為關(guān)鍵問(wèn)題。根據(jù)相關(guān)數(shù)據(jù),每建設(shè)100P算力的集群,成本就要達(dá)到4億人民幣。根據(jù)此前OpenAI披露的數(shù)據(jù),ChatGPT平均每天的訓(xùn)練算力花費(fèi)達(dá)到了70萬(wàn)美元。
目前階段,在AI算力價(jià)格持續(xù)上漲的大背景下,千卡、萬(wàn)卡訓(xùn)練集群已經(jīng)成為常態(tài)。智算集群開(kāi)始向五萬(wàn)卡演進(jìn),并且異構(gòu)化開(kāi)始成為智算集群的新常態(tài)。然而我們可以看到,有大量AI算力因智算網(wǎng)絡(luò)的丟包問(wèn)題被浪費(fèi),網(wǎng)絡(luò)故障成為拖慢模型訓(xùn)練進(jìn)度的常見(jiàn)因素,如何讓網(wǎng)絡(luò)適配異構(gòu)算力成為重要難題。
可以說(shuō),智算網(wǎng)絡(luò)已經(jīng)成為AI基礎(chǔ)設(shè)施發(fā)揮能效的關(guān)鍵。想要借助智算推開(kāi)AI時(shí)代的大門,首選需要鑄造智算網(wǎng)絡(luò)這把鑰匙。
那么,究竟如何才能破解智算網(wǎng)絡(luò)的種種謎題?
不久之前,新華三集團(tuán)發(fā)布了智算網(wǎng)絡(luò)解決方案。這一方案主張充分發(fā)揮“算力×聯(lián)接”的倍增效應(yīng),以標(biāo)準(zhǔn)化聯(lián)接支撐多元算力釋放。新華三也通過(guò)對(duì)算力和聯(lián)接技術(shù)進(jìn)行最佳的調(diào)優(yōu)與配合,來(lái)實(shí)踐了對(duì)于智算網(wǎng)絡(luò)的技術(shù)主張。
從中我們可以看到,開(kāi)放解耦就是智算網(wǎng)絡(luò)的關(guān)鍵解題思路,是一把AI時(shí)代的智算網(wǎng)絡(luò)之鑰。
難題:異構(gòu)算力互聯(lián)的不確定性
當(dāng)前,多元異構(gòu)算力已經(jīng)成為AI基礎(chǔ)設(shè)施建設(shè)的主流選擇。異構(gòu)算力體系可以充分發(fā)揮各種計(jì)算設(shè)備的優(yōu)勢(shì),具備多樣性、靈活性、高效性等特點(diǎn),能夠更好發(fā)揮出智算效用。但是,在實(shí)際部署中,用戶卻必須面對(duì)異構(gòu)算力互聯(lián)的一系列不確定性。這些痛點(diǎn)的存在,極大程度限制了智算網(wǎng)絡(luò),甚至整個(gè)智算基礎(chǔ)設(shè)施的發(fā)展。
首先,是智算網(wǎng)絡(luò)本身的不確定性。
在大規(guī)模智算集群組網(wǎng)的情況下,智算網(wǎng)絡(luò)本身會(huì)出現(xiàn)延遲、丟包等一系列不確定性因素。根據(jù)相關(guān)數(shù)據(jù)顯示,智算網(wǎng)絡(luò)達(dá)到1.5%的丟包率就會(huì)使數(shù)據(jù)吞吐量降低50%,而智算網(wǎng)絡(luò)一旦出現(xiàn)故障,往往需要一周甚至幾周的時(shí)間來(lái)進(jìn)行修復(fù)。隨著組網(wǎng)規(guī)模的擴(kuò)大,智算網(wǎng)絡(luò)的不確定性問(wèn)題也會(huì)被持續(xù)放大。
其次,是異構(gòu)算力實(shí)施效果的不確定性。
異構(gòu)算力已經(jīng)成為智算基礎(chǔ)設(shè)施的必然趨勢(shì),但在實(shí)際場(chǎng)景中,大多數(shù)用戶對(duì)于智算場(chǎng)景都是初次接觸,并不像傳統(tǒng)ICT基礎(chǔ)設(shè)施建設(shè)那樣可以輕車熟路地進(jìn)行規(guī)劃、采購(gòu)、部署。此外,在異構(gòu)算力組網(wǎng)時(shí)就會(huì)遇到不同廠商組件的組合問(wèn)題。服務(wù)器平臺(tái)、GPU、網(wǎng)卡、光模塊、交換機(jī)等領(lǐng)域都有大量的廠商參與。最終實(shí)施效果能否達(dá)到預(yù)期,不同廠商的組件能否實(shí)現(xiàn)互聯(lián)互通,互通后的性能、可靠性、風(fēng)險(xiǎn)性如何,都是用戶必須面臨的不確定性問(wèn)題。
再次,是智算網(wǎng)絡(luò)與算力之間聯(lián)動(dòng)的不確定性。
為了保證智算業(yè)務(wù)有序平穩(wěn)發(fā)展,網(wǎng)絡(luò)必須與算力調(diào)度平臺(tái)聯(lián)動(dòng)起來(lái)。而國(guó)內(nèi)大多算力廠商沒(méi)有配套的網(wǎng)絡(luò)設(shè)備和平臺(tái)。因此,想用網(wǎng)絡(luò)打通異構(gòu)算力,則必須具備與多家廠商的CCL(集合通信庫(kù))的兼容對(duì)接能力,將算力需求轉(zhuǎn)譯為網(wǎng)絡(luò)配置,也就是所謂的“異構(gòu)算網(wǎng)聯(lián)動(dòng)”。
想要解決異構(gòu)算力互聯(lián)所面臨的一系列難題,實(shí)現(xiàn)異構(gòu)算力的效果最大化,最佳選擇就是在提升智算網(wǎng)絡(luò)性能的同時(shí),用網(wǎng)絡(luò)來(lái)貫穿異構(gòu)基礎(chǔ)設(shè)施,拉通異構(gòu)算力生態(tài)。為了實(shí)現(xiàn)這個(gè)目標(biāo),就必須推動(dòng)智算網(wǎng)絡(luò)走向開(kāi)放解耦。
解題:將開(kāi)放解耦作為智算網(wǎng)絡(luò)之鑰
在智算體系當(dāng)中,網(wǎng)絡(luò)是連接 CPU、xPU、內(nèi)存、存儲(chǔ)等資源的基礎(chǔ)設(shè)施,貫穿數(shù)據(jù)計(jì)算、存儲(chǔ)全流程,是拉通生態(tài)的重要介質(zhì)。網(wǎng)絡(luò)的冗余性、高可靠、高彈性,以及以太協(xié)議的開(kāi)放性,可以幫助技術(shù)不成熟的產(chǎn)品消除限制,確保整個(gè)異構(gòu)算力體系達(dá)成最優(yōu)效果。
為了實(shí)現(xiàn)這個(gè)理想化目標(biāo),智算網(wǎng)絡(luò)必須具備開(kāi)放解耦的特質(zhì)。
所謂開(kāi)放,就是在聯(lián)接上實(shí)現(xiàn)標(biāo)準(zhǔn)化,確保網(wǎng)絡(luò)基礎(chǔ)設(shè)施可以打通不同的算力組件,實(shí)現(xiàn)無(wú)痛、可實(shí)施的異構(gòu)組網(wǎng)。
新華三認(rèn)為,在高性能網(wǎng)絡(luò)領(lǐng)域,無(wú)損以太網(wǎng)(RoCE)是一個(gè)快速普及且被大眾所認(rèn)可的技術(shù)。基于無(wú)損以太網(wǎng)推進(jìn)智算網(wǎng)絡(luò)標(biāo)準(zhǔn)化,在成本、未來(lái)演進(jìn)和生態(tài)豐富度上具備天然的優(yōu)勢(shì)。通過(guò)無(wú)損以太網(wǎng)的標(biāo)準(zhǔn)化建設(shè),用戶可以獲得最具優(yōu)勢(shì)的方案,極大拓展選擇上的自由度與實(shí)施上的可靠性。除此之外,用戶還可以利用以太網(wǎng)的標(biāo)準(zhǔn)化特質(zhì),逐步構(gòu)建大規(guī)模智算集群。實(shí)現(xiàn)根據(jù)業(yè)務(wù)需要,對(duì)智算集群進(jìn)行靈活拓展升級(jí)。
所謂解耦,則是將網(wǎng)絡(luò)平臺(tái)與智算平臺(tái)進(jìn)行解耦,增強(qiáng)網(wǎng)絡(luò)對(duì)于多元異構(gòu)算力的承載能力,并且通過(guò)網(wǎng)絡(luò)的應(yīng)用感知和資源分配機(jī)制,及時(shí)響應(yīng)各類應(yīng)用需求,最終可以充分發(fā)揮算力生態(tài)中各領(lǐng)域的優(yōu)勢(shì),實(shí)現(xiàn)資源共享和高效協(xié)作,幫助用戶享有先進(jìn)的AI智算平臺(tái)、優(yōu)秀的網(wǎng)絡(luò)設(shè)備和高品質(zhì)的聯(lián)接介質(zhì)。
基于開(kāi)放解耦的智算網(wǎng)絡(luò)建設(shè)理念,新華三推動(dòng)解決了CPU、GPU、網(wǎng)卡、光模塊等異構(gòu)組件間的互聯(lián)問(wèn)題,打造了廣泛適配、靈活擴(kuò)展的網(wǎng)絡(luò)聯(lián)接。
開(kāi)放解耦就像一把鑰匙,可以聯(lián)動(dòng)智算集群的不同組件,以及智算生態(tài)中的各個(gè)角色,最終實(shí)現(xiàn)用戶的智算目標(biāo)價(jià)值最大化。帶著這把鑰匙,新華三打造了全新的智算網(wǎng)絡(luò)解決方案,為用戶打開(kāi)了智能世界的大門。
實(shí)踐:新華三的智算網(wǎng)絡(luò)探索
開(kāi)放解耦的網(wǎng)絡(luò)建設(shè)理念,想要最終形成智算網(wǎng)絡(luò)解決方案并不容易。它需要兼顧不同的組網(wǎng)方式、不同場(chǎng)景的網(wǎng)絡(luò)調(diào)優(yōu)需求,以及不同規(guī)模的智算中心網(wǎng)絡(luò)建設(shè)需求,并且能夠兼顧解決用戶在規(guī)劃、組網(wǎng)、用網(wǎng)、運(yùn)維等不同階段的技術(shù)要求。
最終,新華三聚焦網(wǎng)絡(luò)優(yōu)勢(shì),提供了強(qiáng)大、靈活、多元且具備高支撐度的異構(gòu)算力互聯(lián)架構(gòu),探索出了全新的智算網(wǎng)絡(luò)解決方案。
如上文所說(shuō),對(duì)于異構(gòu)算力互聯(lián)來(lái)說(shuō),用戶有生態(tài)開(kāi)放、平臺(tái)解耦、算網(wǎng)協(xié)同三方面的主要訴求。而新華三智算網(wǎng)絡(luò)解決方案,恰好可以應(yīng)對(duì)這些痛點(diǎn)。
在基于以太協(xié)議進(jìn)行標(biāo)準(zhǔn)化智算組網(wǎng)領(lǐng)域,由于用戶需要實(shí)現(xiàn)不同的組網(wǎng)架構(gòu),因此需要獲得多元可靠的網(wǎng)絡(luò)產(chǎn)品。為此,新華三可以提供多元化的產(chǎn)品布局,提供支持200G/400G/800G不同端口密度的盒式產(chǎn)品/框式產(chǎn)品,以及先進(jìn)架構(gòu)DDC(Distributed Disaggregated Chassis)產(chǎn)品,提供多種組網(wǎng)架構(gòu),滿足不同規(guī)模、不同智算平臺(tái)、不同建設(shè)環(huán)境的客戶的需要。
在用網(wǎng)階段,用戶需要負(fù)載多樣化的網(wǎng)卡,實(shí)現(xiàn)負(fù)載均衡。
為此,新華三智算網(wǎng)絡(luò)解決方案帶來(lái)了全局負(fù)載均衡技術(shù),可以帶來(lái)極致的帶寬利用率,從而解決傳統(tǒng)智算網(wǎng)絡(luò)中通信流量擁塞敏感性高、低時(shí)延、高吞吐等需求,易導(dǎo)致負(fù)載分擔(dān)不均、整網(wǎng)吞吐下降等問(wèn)題。
同時(shí),針對(duì)不同智算場(chǎng)景,新華三會(huì)提供最適合的負(fù)載均衡技術(shù)組合,合理調(diào)整流量的帶寬利用問(wèn)題,提升智算中心算力規(guī)模和效率。比如說(shuō),可以應(yīng)用SprayLink解決鏈路均衡的問(wèn)題,通過(guò)實(shí)時(shí)監(jiān)控LACP/ECMP中各物理鏈路的帶寬利用率,出口隊(duì)列,緩存占用,傳輸時(shí)延等精細(xì)化數(shù)據(jù),對(duì)大象流做到基于Per-Packet方式的動(dòng)態(tài)負(fù)載分擔(dān),將每個(gè)數(shù)據(jù)包分配到當(dāng)時(shí)資源最優(yōu)的鏈路上,從而實(shí)現(xiàn)鏈路寬帶利用率提升至95%的效果。
新華三認(rèn)為,目前最優(yōu)的負(fù)載均衡技術(shù)是DDC(Disaggregated Distributed Chassis分布式解耦機(jī)框)。它能將傳統(tǒng)框式交換機(jī)的主控、網(wǎng)板、線卡分解為分布式的模塊化部件,以提高網(wǎng)絡(luò)的靈活性、可擴(kuò)展性和性能。DDC基于信元交換,任何協(xié)議的流量在進(jìn)入DDC架構(gòu)時(shí)都可被切成等分大小的信元,在內(nèi)部多條鏈路上負(fù)載,完全解決了Hash極化問(wèn)題,可以實(shí)現(xiàn)100%的負(fù)載分擔(dān)。在流量發(fā)出時(shí),信元又將重組為原始數(shù)據(jù)。信元交換無(wú)視數(shù)據(jù)協(xié)議,不會(huì)產(chǎn)生亂序,對(duì)GPU和網(wǎng)卡都是天然解耦的。
此外,DDC架構(gòu)擴(kuò)展性強(qiáng),傳統(tǒng)框式設(shè)備無(wú)論如何設(shè)計(jì),其容納的端口都是有限的。而將其拆解之后,通過(guò)橫向擴(kuò)展可以支持?jǐn)?shù)千個(gè)200G/400G端口,且最大可支持32K(400G)GPU卡,這是框式設(shè)備無(wú)法實(shí)現(xiàn)的,也可以大幅降低部署難度和功耗。新華三DDC產(chǎn)品擁有獨(dú)立的高性能控制平面,可以實(shí)現(xiàn)網(wǎng)元失效后us級(jí)別的收斂,以及網(wǎng)元上線的快速即插即用,可靠性和靈活度均能實(shí)現(xiàn)業(yè)界領(lǐng)先。
在異構(gòu)算網(wǎng)協(xié)同領(lǐng)域,新華三智算網(wǎng)絡(luò)解決方案能夠支持異構(gòu)GPU/網(wǎng)卡的算網(wǎng)路徑協(xié)同能力。一方面可以利用負(fù)載均衡來(lái)提升網(wǎng)絡(luò)利用率,另一方面還能夠通過(guò)控制器分析,主動(dòng)進(jìn)行選路與規(guī)劃仿真,從上帝視角實(shí)現(xiàn)整網(wǎng)的協(xié)同處理。
除此之外,為了實(shí)現(xiàn)開(kāi)放解耦的目標(biāo),新華三還搭建了業(yè)界最開(kāi)放的生態(tài)合作環(huán)境。其各條產(chǎn)品線都采用了多家合作伙伴的交付件,包括GPU、網(wǎng)卡、光模塊、交換芯片?;谶@樣的產(chǎn)業(yè)優(yōu)勢(shì),新華三還實(shí)現(xiàn)了能夠代替客戶驗(yàn)證異構(gòu)算力環(huán)境的兼容性。
新華三制定了智算網(wǎng)絡(luò)異構(gòu)連通專項(xiàng)測(cè)試,可對(duì)光模塊、電纜進(jìn)行高可靠性測(cè)試驗(yàn)證,從而解決了與網(wǎng)卡互聯(lián)互通的問(wèn)題,為客戶提供一套經(jīng)過(guò)驗(yàn)證過(guò)的交付方案。
通過(guò)在技術(shù)、產(chǎn)品、生態(tài)等環(huán)節(jié)踐行開(kāi)放解耦,新華三成功破解了異構(gòu)算力互聯(lián)的時(shí)代謎題,將AI基礎(chǔ)設(shè)施的不確定性,換做智能時(shí)代產(chǎn)業(yè)價(jià)值的確定性。