9月5日,騰訊2024全球數(shù)字生態(tài)大會召開。大會期間,騰訊云正式發(fā)布AI infra品牌“騰訊云智算”,整合騰訊云在HCC、星脈網絡、AIGC云存儲等優(yōu)勢單項產品能力,為用戶提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開波表示,騰訊云智算目前已經服務了國內90%的大模型廠商,也幫助一大批IDC(數(shù)據中心)廠商向AIDC(智算中心)廠商轉型。
生成式AI驅動,云基礎設施進入新周期
自ChatGPT點燃市場熱情、各大廠商和資本競相入場以來,僅僅一年多的時間,生成式AI便已從技術走向實踐,逐漸融入各行各業(yè),成為數(shù)字化轉型的重要驅動力。Gartner對于未來生成式AI的預測是,到2026年,超過80%的企業(yè)都會接入生成式AI或大模型,然而這一比例在2023年初還不到5%。
“盡管目前生成式AI仍處于一個相對早期的發(fā)展階段,商業(yè)化落地還需進一步探索,但從長期來看,生成式AI一定會出現(xiàn)一個大爆發(fā)的‘奇點’。”沙開波指出。他認為,生成式AI的快速興起驅動云基礎設施建設進入一輪全新的周期。
眾所周知,生成式AI背后需要依靠強大的AI模型和海量數(shù)據,其所需要的云服務算力成本十分龐大。以ChatGPT為例,用戶每次與ChatGPT互動,產生的算力云服務成本約0.01美元,如果使用總投資30.2億元、算力500P的數(shù)據中心來支撐ChatGPT的運行,至少需要7-8個這樣的數(shù)據中心,基礎設施的投入都是以百億計的。AI大模型無疑為整個云基礎設施建設帶來了巨大的市場空間。
“我們的很多業(yè)務增量都來自于智能計算這一塊。除了GPU之外,圍繞GPU一些存儲、網絡,也是一塊很大的增量?!鄙抽_波坦言。對于大模型訓練場景來說,算、存、網是一體的。大模型廠商在模型訓練和推理場景中,對云基礎設施的高性能、高穩(wěn)定性、可運維、應用性等方面的要求更高,這就要求服務商不斷打磨自身產品能力,從計算、網絡、存儲等方面,包括一些軟件框架層面的優(yōu)化,以更好的去滿足這些AI客戶,尤其是大模型廠商的業(yè)務需求。可以預見,生成式AI或將推動云基礎設施的整體升級。
模型越來越大,呼喚更大規(guī)模計算集群
伴隨生成式AI的興起,業(yè)內出現(xiàn)一個趨勢:模型參數(shù)規(guī)模越來越大,從百萬級逐步進入千萬級,甚至是萬億級。而參數(shù)越大,訓練所用的計算資源就越多,這些大模型的訓練動輒需要使用成千上萬張GPU卡去做算力支撐,引發(fā)模型廠商的算力焦慮。沙開波指出,智能算力存在比較典型的“木桶短板”效應,算力的提升不能光靠“堆卡”,而是要讓計算、存儲、網絡以及上層的框架等各個環(huán)節(jié)全面協(xié)調配合,才能打造出一個高性能、高帶寬、低延遲的計算集群。
以網絡能力為例,千億、萬億參數(shù)規(guī)模的大模型,訓練過程中通信占比最大可達50%,傳統(tǒng)低速網絡的帶寬遠遠無法支撐。同時,傳統(tǒng)網絡協(xié)議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。為解決網絡性能問題,各個廠商推出了一系列相關產品和解決方案。
其中,騰訊云星脈網絡具備3.2T通信帶寬,可支持10萬卡的超大計算規(guī)模。據悉,其能提升40%的GPU利用率,節(jié)省30%~60%的模型訓練成本,為AI大模型帶來10倍通信性能提升。數(shù)據顯示,在穩(wěn)定性和性能上,騰訊云的集群千卡單日故障數(shù)已經刷新到0.16,是行業(yè)水平的1/3;1分鐘就能完成萬卡checkpoint寫入,數(shù)據讀寫效率是業(yè)界10倍;千卡集群的通信時間縮短到6%,是業(yè)界一半。
同時,通過整合軟硬件技術能力,騰訊云智算集群從機器上架到開始訓練可以做到只需1天,相比業(yè)界以月為單位也大為縮短。“我們在做的是在規(guī)模比較大的計算集群里面,把卡的利用率盡可能做到極致,減少閑置算力就是減少用戶成本?!鄙抽_波表示。據他透露,某模型廠商通過使用騰訊云智算大模型訓練集群解決方案將千卡一年的模型訓練成本降低了2000萬。
智算資源短缺,“一云多芯”成為主流選擇
當前,智算中心被視為如同水和電一般的“新基建”,在全國各地落地開花。據賽迪顧問統(tǒng)計,截至2024年上半年,國內已經建設和正在建設的智算中心超過250個。智算中心招投標相關事件791起,同比增長高達407.1%。最新統(tǒng)計顯示,截至5月底,全國規(guī)劃具有高性能計算機集群的智算中心已達十余個。
從算力規(guī)模來看,我國智能算力在算力總規(guī)模中的比重超過了30%。盡管智算中心建設如火如荼,但智算資源的供需矛盾依然存在?!爸撬阒行慕ㄔO方通常手里有卡,也有硬件資源。但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有應用。
有了卡和硬件,不代表大模型的訓練、推理或者AI的應用就可以直接‘跑’出來了,還需要配套的軟件能力,要能夠把所有資源高效管理和調度起來,還得找到最終應用場景或者終端客戶?!鄙抽_波分析稱。為彌合智算資源“供”與“需”之間的溝壑,“一云多芯”成為一個主流選擇。
過去,智算集群中的多個模型訓練任務往往是單一廠商芯片服務于單一任務,不論是不同廠商芯片算力切分、芯片間通信效率或是根本的模型訓練效率問題,都使得算力焦慮在在硬件差異之下被無限放大。
而云平臺可以將服務器芯片等硬件封裝成標準算力,無論底層是x86與ARM指令集的并存、x86或ARM不同廠商架構間并存、不同GPU或DPU服務器并存,抑或是計算節(jié)點與存儲節(jié)點不同芯片架構并存,都能給客戶提供體驗一致的云計算服務。比如,騰訊云智算平臺便采用了“一云多芯”架構,可以適配、管理、調度多種CPU和GPU芯片,能夠有效降低供應鏈風險,同時滿足不同業(yè)務對于不同算力的需求。
“生成式AI的興起給整個云基礎設施建設提出了更高的要求,我們希望能夠整合高性能計算、高性能存儲、高性能網絡等各方面的能力,為企業(yè)用戶提供集‘算、存、網、數(shù)’于一體的技術底座,幫助大家加速釋放AI生產力?!鄙抽_波說道。
作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東