什么是DPU?
相對標(biāo)準(zhǔn)網(wǎng)卡,最初具備加速和卸載功能的網(wǎng)卡被稱為智能網(wǎng)卡,當(dāng)DPU(數(shù)據(jù)處理器)的概念出現(xiàn)后,智能網(wǎng)卡和DPU的概念則缺乏一個清晰的定義。以英偉達(dá)的DPU BlueField 系列和智能網(wǎng)卡CX系列為例,兩者的區(qū)別主要是BlueField 系列增加了多核的ARM通用CPU 處理單元,用于滿足控制平面的卸載,以此實(shí)現(xiàn)基礎(chǔ)設(shè)施服務(wù)的全卸載和宿主機(jī)業(yè)務(wù)物理上的安全隔離。
無論是智能網(wǎng)卡還是DPU,都具有一樣的核心功能,主要包含RDMA融合以太網(wǎng)(RoCE)、存儲加速卸載如NVMe-oF、VPC網(wǎng)絡(luò)卸載加速、存儲網(wǎng)絡(luò)IO虛擬化等。
因此,廣義上的DPU即包含DPU,又包含智能網(wǎng)卡。
“九死一生”,國產(chǎn)DPU跑出來了嗎?
2022年,DPU產(chǎn)業(yè)經(jīng)歷了一場高開低走的市場變化,伴隨著AMD收購Pensando、微軟收購Fungible等動作,DPU又“熱”了一把,各路創(chuàng)業(yè)英雄不少。
與此同時,資本和行業(yè)界也卷起了一股對DPU創(chuàng)業(yè)的懷疑潮,有媒體甚至發(fā)出了“逃離DPU,因?yàn)镈PU創(chuàng)業(yè)至少死掉九成”的言論。
站在兩年后的今天,不能說看到DPU產(chǎn)業(yè)跑出來了,但至少逃出了“2022年就出現(xiàn)資金問題”的悲觀預(yù)測,也并沒有出現(xiàn)“九死一生”的DPU創(chuàng)業(yè)慘狀。相反地,我們看到國內(nèi)幾家頭部的DPU廠商已經(jīng)流片成功,并開始商業(yè)落地。
云脈芯聯(lián):“智能網(wǎng)卡+AI網(wǎng)卡+DPU”三箭齊發(fā),YSA-100芯片迎量產(chǎn)
就在近日,云脈芯聯(lián)YSA-100網(wǎng)絡(luò)互聯(lián)芯片正式對外發(fā)布,同期發(fā)布的還有基于YSA-100這顆芯片底座研發(fā)的三款主力產(chǎn)品——metaScale系列智能網(wǎng)卡、metaConnect系列AI智能網(wǎng)卡和metaVisor系列AI DPU。
根據(jù)云脈芯聯(lián)創(chuàng)始人/總裁吳吉朋的介紹,YSA-100是國內(nèi)第一顆擁有400Gbps接入能力的支持RDMA網(wǎng)絡(luò)互聯(lián)的芯片,而在此基礎(chǔ)上推出的三款產(chǎn)品分別面向不同的用戶市場。
圖片來源:云脈芯聯(lián)
- metaScale系列智能網(wǎng)卡
metaScale是一款面向現(xiàn)代數(shù)據(jù)中心云場景、AI智算中心高性能網(wǎng)絡(luò)和高性能存儲領(lǐng)域打造的智能網(wǎng)卡,可提供優(yōu)異的網(wǎng)絡(luò)收發(fā)性能和成熟的平臺兼容性,已適配如英特爾、AMD、海光、飛騰5000C、鯤鵬920和申威等CPU,天數(shù)智芯、沐曦MetaX、寒武紀(jì)、摩爾線程等GPU,并已成功適配新華三、浪潮、戴爾等主流服務(wù)器。
- metaConnect系列AI智能網(wǎng)卡
metaConnect是一款面向AI大模型業(yè)務(wù),針對新型智算中心高性能網(wǎng)絡(luò)需求打造的AI智能網(wǎng)卡產(chǎn)品,擁有單口400Gbps RDMA網(wǎng)絡(luò)能力,可以有效加速GPU和AI芯片的計(jì)算效率,同時具備Lossy網(wǎng)絡(luò)傳輸能力,為AI大模型算力集群網(wǎng)絡(luò)提供高吞吐完全負(fù)載均衡的解決方案。
云脈芯聯(lián)方面透露,基于云脈芯聯(lián)自主創(chuàng)新的HyperDirect技術(shù)和多路徑擁塞控制算法,metaConnect-400系列對比市場同類產(chǎn)品網(wǎng)絡(luò)帶寬利用率可整體提升20%。
- metaVisor系列AI DPU
metaVisor是一款面向大模型業(yè)務(wù),針對智算中心基礎(chǔ)設(shè)施網(wǎng)絡(luò)管理運(yùn)維監(jiān)控能力提升需求打造的AI DPU產(chǎn)品,除了支持傳統(tǒng)DPU的云計(jì)算租戶VPC網(wǎng)絡(luò)卸載和存儲卸載,提供高性能RDMA網(wǎng)絡(luò)能力外,還支持自主創(chuàng)新的HyperDirect技術(shù),可有效加速GPU和AI芯片的計(jì)算效率。
此外,metaVisor系列AI DPU產(chǎn)品還能夠和云脈芯聯(lián)AI智能網(wǎng)卡產(chǎn)品協(xié)同構(gòu)建端到端的高性能網(wǎng)絡(luò)監(jiān)控運(yùn)維管理能力,為智算中心打造更有競爭力的產(chǎn)品解決方案。
關(guān)于用戶側(cè)表現(xiàn)和出貨情況,目前基于云脈芯聯(lián)YSA-100的產(chǎn)品已經(jīng)正式量產(chǎn)出貨,并受到了包括兩家頭部互聯(lián)網(wǎng)大廠、頭部服務(wù)器廠商、智算基礎(chǔ)設(shè)施服務(wù)商在內(nèi)的用戶較為廣泛的性能測試肯定,尤其是在RDMA方面的表現(xiàn)。
其中一位頭部互聯(lián)網(wǎng)廠商網(wǎng)絡(luò)負(fù)責(zé)人表示:“在端網(wǎng)融合的大趨勢下,網(wǎng)卡性能的提升,能夠顯著簡化網(wǎng)絡(luò)部署難度,提升整體網(wǎng)絡(luò)性能,而國產(chǎn)網(wǎng)卡的發(fā)力,則能夠很好的幫助國產(chǎn)廠商控制數(shù)據(jù)中心的總擁有成本(TCO)。在未來訓(xùn)推一體的大趨勢下,需要智能網(wǎng)卡/DPU產(chǎn)品為網(wǎng)絡(luò)基礎(chǔ)設(shè)施提供更好的靈活性,能夠更快速的在訓(xùn)練和推理應(yīng)用之間,內(nèi)部使用和對外售賣之間靈活轉(zhuǎn)換。”
另外,本土集成商新華三和浪潮信息也帶來了對metaConnect和metaScale的反饋。
新華三集團(tuán)副總裁、人工智能研究院院長李飛介紹,在新華三4機(jī)32卡集群端網(wǎng)協(xié)同測試中,云脈芯聯(lián)metaConnect-400S AI NIC產(chǎn)品在400G RDMA網(wǎng)絡(luò)的集合通信庫方面的表現(xiàn)已比肩國際一線廠商產(chǎn)品水平,雙方聯(lián)創(chuàng)的解決方案目前也已在客戶側(cè)部署落地。
浪潮信息網(wǎng)絡(luò)研發(fā)部總經(jīng)理李鵬翀則表示,云脈芯聯(lián)metaScale-50、metaScale-200和metaScale-200S目前已順利通過浪潮的供應(yīng)商引入測試,未來將與浪潮產(chǎn)品一起服務(wù)客戶,同時采購的云脈芯聯(lián)YSA-100芯片,也將作為浪潮信息自研智能網(wǎng)卡的核心組件推向市場。
披荊斬棘的DPU, 正在面臨怎樣的變革?
DPU產(chǎn)業(yè)正在如火如荼的高速發(fā)展,那么到底是什么在支撐DPU行業(yè)披荊斬棘呢?筆者認(rèn)為首先是人工智能行業(yè)的發(fā)展在持續(xù)推高市場側(cè)的需求,即解決數(shù)據(jù)中心等基礎(chǔ)設(shè)施的“降本增效”難題。具體來講就是將“CPU處理效率低下、GPU處理不了”的數(shù)據(jù)傳輸工作負(fù)載卸載到專用DPU,以提升整個計(jì)算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本(TCO)。
早些年,大家談?wù)摰母嗍荂PU處理效率低下情況下DPU的用武之處,但近年來,這個趨勢正在“被轉(zhuǎn)變”。因?yàn)榻陙?,在?shù)據(jù)中心中,GPU服務(wù)器的占比越來越高。根據(jù)Dell’Oro Group的數(shù)據(jù)顯示,預(yù)計(jì)在3-5年后,即2027-2028年前后,GPU服務(wù)器的數(shù)量將超過CPU服務(wù)器的數(shù)量。屆時,DPU將更多地被用于解決大型集群中海量GPU協(xié)同工作的問題。
從云脈芯聯(lián)此次推出的產(chǎn)品,我們可以看到,metaConnect系列AI智能網(wǎng)卡和metaVisor系列AI DPU就是應(yīng)這一趨勢推出的產(chǎn)品。
GPU服務(wù)器會帶來怎樣的改變呢?前幾年,當(dāng)我們提到400G、800G覺得好像很遙遠(yuǎn),因?yàn)榇蠹页S玫倪€是10G、25G、50G網(wǎng)絡(luò)。但是,GPU并行計(jì)算一下子把網(wǎng)絡(luò)推到了400G以上。
DPU是一個強(qiáng)IO型的芯片,相較通過間接手段來支持網(wǎng)絡(luò)IO的CPU而言,DPU的IO帶寬幾乎可以與網(wǎng)絡(luò)帶寬等同,例如,網(wǎng)絡(luò)支持25G,那么DPU就要支持25G。
所以,當(dāng)網(wǎng)絡(luò)帶寬從主流 10G朝著25G、40G、100G、200G、400G,甚至800G發(fā)展時,原來基于“CPU/NP”和“FPGA+CPU”這兩類硬件架構(gòu)的DPU,除了在性能上難以為繼以外,在成本和功耗上也存在較大挑戰(zhàn),而結(jié)合了ASIC和CPU雙邊優(yōu)勢的“ASIC+CPU”硬件架構(gòu)將引領(lǐng)產(chǎn)品趨勢。
寫在最后
受到地緣政治等不確定因素的影響,國內(nèi)必須形成閉環(huán)的產(chǎn)業(yè)鏈才能實(shí)現(xiàn)真正自主的發(fā)展,而在AI領(lǐng)域,當(dāng)前大家把更多的關(guān)注放在GPU等核心芯片上,事實(shí)上真正國產(chǎn)化低的是高速網(wǎng)卡,所以這也是接下來AI產(chǎn)業(yè)要克服的重點(diǎn)。
好在,近年來越來越多的國產(chǎn)DPU廠商拿出了可商業(yè)化的產(chǎn)品,也在不斷適配國內(nèi)的CPU、GPU、路由等產(chǎn)品,希望在未來幾年的迭代后,可以真正做到高性能產(chǎn)品的自主可控。