作者 | 胡敏
編輯 | 周蕾
“總是「買買買」?是時(shí)候有人站出來(lái),想想如何提升用卡效率了。”? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ?
“如果讓你重回2018年,你會(huì)做什么?”“先囤一大批英偉達(dá)的卡。”這段對(duì)話雖然是網(wǎng)絡(luò)段子,但也同樣反映了廠商在全球囤卡找卡的瘋狂。眾所周知,這兩年GPU一直處于供應(yīng)緊張的狀態(tài),但我們卻遇到了這樣一個(gè)真實(shí)案例:一家傳統(tǒng)IDC廠商手上囤了很多GPU卡,卻處于閑置狀態(tài)。這反映當(dāng)下的一種現(xiàn)狀:智算雖火熱,但市場(chǎng)上還存在很多用卡效率不高的情況,換而言之,有卡也不一定有算力。
01、智算火熱,用卡效率不高被關(guān)注
進(jìn)一步追問,為何會(huì)用卡效率不高?因?yàn)橹撬悴粌H僅是卡的問題,而是一個(gè)軟硬件協(xié)調(diào)的系統(tǒng),涉及算、存、網(wǎng)等多個(gè)核心能力,當(dāng)軟件能力不夠的時(shí)候,卡自身的發(fā)揮也會(huì)受限。騰訊云副總裁,云計(jì)算資深技術(shù)專家沙開波表示。這就像買了一輛頂級(jí)跑車,但自己不太懂賽車技術(shù),也沒有專業(yè)的賽車團(tuán)隊(duì)來(lái)調(diào)試車輛和規(guī)劃最佳行駛路線,那就只能在普通道路上行駛。這是所有IDC廠商不愿意看到的,因?yàn)檫@不僅是一個(gè)資源閑置問題,更是一個(gè)轉(zhuǎn)型機(jī)遇問題,用好這些卡,IDC廠商也可順勢(shì)轉(zhuǎn)型到AIDC(智算中心)廠商,開拓新業(yè)務(wù)。
當(dāng)然,并非僅IDC廠商面臨用卡效率不高,對(duì)于很多大模型公司而言,眼下他們也亟待算力效率的提升,尤其是在今年,模型訓(xùn)練參數(shù)量是越來(lái)越大,去年可能大家都還在用十億、百億的參數(shù)規(guī)模,今年這一規(guī)模數(shù)字已經(jīng)“卷”到了千億,如騰訊混元大模型就擴(kuò)展為萬(wàn)億參數(shù)規(guī)模。如此龐大的參數(shù)量,也讓底層的算力集群規(guī)模越來(lái)越大,有業(yè)內(nèi)從業(yè)者稱,今年起,所有智算集群萬(wàn)卡是最低標(biāo)配,萬(wàn)卡以上的智算集群才有價(jià)值。集群規(guī)模的不斷擴(kuò)大,無(wú)疑對(duì)底層AI基礎(chǔ)設(shè)施的處理效率提出更高的挑戰(zhàn),比如如何讓超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率、訓(xùn)練高穩(wěn)定性與可用性、故障快速定位與可診斷工具等等。這恰似你分別想提升一千個(gè)人的協(xié)作效率,和一萬(wàn)個(gè)人協(xié)作的協(xié)作效率,二者難度不可同日而語(yǔ)。大模型計(jì)算效率不高帶來(lái)更直接的問題就是,模型訓(xùn)練成本進(jìn)一步增加,而訓(xùn)練成本,又是眼下國(guó)內(nèi)大模型公司的敏感點(diǎn)。
一方面,大模型訓(xùn)練燒錢是眾所皆知,另一方面,今年資本市場(chǎng)對(duì)國(guó)內(nèi)大模型公司投資也在趨于理性,去年拿到投資的大模型公司有兩百多家,而今年上半年,只有像月之暗面、智譜等一些頭部大模型公司拿了融資。燒錢不能永無(wú)止境,提升用卡效率迫在眉睫。作為頭部云廠商之一,騰訊云已悄然落子。9月5日,騰訊云在騰訊全球數(shù)字生態(tài)大會(huì)上發(fā)布 AI Infra品牌—— 騰訊云智算 ,將旗下高性能計(jì)算HCC、高性能網(wǎng)絡(luò)IHN星脈、高性能云存儲(chǔ)、加速框架、容器、向量數(shù)據(jù)庫(kù)、智算套件等單項(xiàng)產(chǎn)品能力整合,幫助產(chǎn)業(yè)突破技術(shù)瓶頸,加速釋放AI生產(chǎn)力。
02、智算啟幕,破客戶難題堅(jiān)冰
事實(shí)上,在此次發(fā)布騰訊云智算品牌之前,騰訊云早已經(jīng)在迭代和對(duì)外輸出智算技術(shù)與產(chǎn)品,來(lái)提升智算性能,降低使用成本。去年4月,騰訊云正式發(fā)布面向大模型訓(xùn)練的新一代HCC高性能計(jì)算集群;去年6月,騰訊云首次對(duì)外完整披露自研星脈高性能計(jì)算網(wǎng)絡(luò),后來(lái),騰訊云又發(fā)布了AIGC云存儲(chǔ)解決方案;推出了源于公有云的成熟實(shí)踐的專有云智算套件,支撐企業(yè)基于自有硬件搭建高性能的專有智算云。而眼下這一節(jié)點(diǎn),之所以要成立騰訊云智算品牌,據(jù)沙開波表示,其一是AI大模型的興起,需求端對(duì)整個(gè)云基礎(chǔ)設(shè)施提出更高級(jí)的要求;其二是騰訊云在AI 大模型的驅(qū)動(dòng)下,也對(duì)云基礎(chǔ)設(shè)施很多能力做了進(jìn)化。成立騰訊云智算品牌,就是為讓更多客戶了解騰訊云智算的能力,同時(shí)將這些能力輸出,更好地支持客戶的業(yè)務(wù)發(fā)展。客戶在大模型訓(xùn)練過程中往往會(huì)遇到這幾個(gè)問題:
第一是如何提升訓(xùn)練效率,減少故障率?
訓(xùn)練效率不高,可能源于幾個(gè)環(huán)節(jié),第一是在訓(xùn)練啟動(dòng)時(shí)間長(zhǎng)。由于軟硬件等多種因素等原因,目前業(yè)內(nèi)許多訓(xùn)練啟動(dòng)時(shí)間長(zhǎng)達(dá)一個(gè)月之久。第二是在訓(xùn)練過程中,經(jīng)常發(fā)生故障。大模型訓(xùn)練的故障率是個(gè)不容小覷的問題,據(jù)統(tǒng)計(jì),GPU故障率是CPU的120倍以上。
前不久,Meta發(fā)布了其最新的Llama 3 405B大語(yǔ)言模型,并公布了一項(xiàng)研究成果,405B模型通過由16384張英偉達(dá)H100 80G GPU組成的服務(wù)器集群,訓(xùn)練運(yùn)行持續(xù)了54天。在這54天中,集群遭遇了419次意外組件故障,平均每3小時(shí)就發(fā)生一次故障。而騰訊云通過整合軟硬件技術(shù)能力,騰訊云智算集群從機(jī)器上架到開始訓(xùn)練可以做到只需1天,而在故障數(shù)上,騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16,是行業(yè)水平的1/3。之所以能有此成果,這與其網(wǎng)絡(luò)、存儲(chǔ)產(chǎn)品,加速框架、向量數(shù)據(jù)庫(kù)以及智算套件等有關(guān)。
據(jù)沙開波介紹,騰訊云自研的星脈網(wǎng)絡(luò)通過流量和拓?fù)渥詣?dòng)感知進(jìn)行調(diào)度,提升網(wǎng)絡(luò)吞吐,故障時(shí)定位問題鏈路并處理,減少訓(xùn)練中斷。在萬(wàn)卡集群下,網(wǎng)絡(luò)故障可實(shí)現(xiàn) 1 分鐘發(fā)現(xiàn),3 分鐘定位,5 分鐘解決。而在千卡集群的通信時(shí)間縮短到6%,是業(yè)界一半。而騰訊云高性能并行文件存儲(chǔ)CFS Turbo支持千卡并發(fā)讀寫。
此外,在加速框架上,騰訊云的TACO也為云端計(jì)算效率提速,據(jù)騰訊云相關(guān)人士介紹,在同樣的硬件環(huán)境下,原本每秒只能處理100個(gè)tokens的系統(tǒng),在使用TACO后可以提升至每秒處理200甚至300個(gè)tokens,并且處理的tokens增多,并沒有帶來(lái)太多延遲。
第二是訓(xùn)練如何更加兼容、部署更為靈活?
以前模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù),當(dāng)前芯片供給緊俏的背景下,各大芯片廠商持續(xù)加大在 GPU 方面的投入與布局,在越來(lái)越多的智算中心里,不同型號(hào)、不同廠商的卡進(jìn)行異構(gòu)組網(wǎng)的情況愈發(fā)普遍。
與此同時(shí),當(dāng)下眾多行業(yè)對(duì)數(shù)據(jù)安全合規(guī)有著極高的要求,不少訓(xùn)練和推理只能在本地數(shù)據(jù)中心進(jìn)行。為了解決多類型卡的訓(xùn)練問題,騰訊云目前采用的“一云多芯”架構(gòu),可以適配、管理、調(diào)度多種CPU和GPU芯片,能夠有效降低供應(yīng)鏈風(fēng)險(xiǎn),同時(shí)滿足不同業(yè)務(wù)對(duì)于不同算力的需求。
而針對(duì)部署問題,騰訊云推出專有云智算套件,支撐企業(yè)基于自有硬件搭建高性能專有智算云,滿足企業(yè)在私有算力環(huán)境下訓(xùn)練大模型的訴求。這一套件跟公有云有一樣的配置,星脈網(wǎng)絡(luò)、AIGC云存儲(chǔ)、Taco都在這套打包的方案內(nèi)。如今,據(jù)沙開波透露,騰訊云智算已經(jīng)服務(wù)了90%以上的大模型企業(yè),而且這些公司也都實(shí)現(xiàn)了大模型訓(xùn)練成本下降,某大模型客戶在采用騰訊云的整套算力解決后,一年的成本下降了2000萬(wàn)。
除了大模型客戶外,一些做AI應(yīng)用的客戶也在使用這套方案。去年下半年,某社區(qū)電商企業(yè)在做AI應(yīng)用時(shí),把將海外芯片更換為騰訊云在公有云上提供的國(guó)產(chǎn)芯片。在保持主要業(yè)務(wù)指標(biāo)不變的前提下,該公司實(shí)現(xiàn)了21天內(nèi)完成芯片替換,兩周左右完成模型適配,一周左右完成物理框架改造。此外,開頭提到的IDC公司,也在與騰訊云的合作下,在半年內(nèi)將GPU資源幾乎全部售出。
03、智算開拓,尋云市場(chǎng)增量方向
從客戶角度來(lái)看,其希望云廠商能夠提供更多的高性能AI基礎(chǔ)設(shè)施,為其業(yè)務(wù)提質(zhì)增效。而站在云廠商的角度來(lái)看,加速提升智算能力,也是為了抓住新的云增長(zhǎng)點(diǎn)。此前云廠商鎖定的幾個(gè)增量方向——出海、下沉市場(chǎng)、以及傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型。出海目前面臨著極大的不確定性,去發(fā)達(dá)國(guó)家市場(chǎng),如歐美等地,面臨著信任問題,長(zhǎng)期用量規(guī)模上不去,機(jī)房運(yùn)營(yíng)成本高昂,海外基本都還在流血。而去到下沉市場(chǎng),最主要的問題是沒錢。這些市場(chǎng)客戶對(duì)云的需求量并不強(qiáng),1000元/年的客戶比比皆是。
傳統(tǒng)行業(yè)數(shù)字化轉(zhuǎn)型,最大的困難是如何洞察行業(yè)需求,以及了解每一個(gè)行業(yè)的know-how。畢竟,傳統(tǒng)企業(yè)做數(shù)字化轉(zhuǎn)型的核心目的,是看到業(yè)務(wù)的提質(zhì)、增效。這些增量方向的拓展就像是在密林中開辟新路,每一步都充滿挑戰(zhàn)與不確定性。與此同時(shí),所有的云從業(yè)者長(zhǎng)久以來(lái)深陷存量競(jìng)爭(zhēng)的泥沼,業(yè)績(jī)?cè)鲩L(zhǎng)乏力帶來(lái)的迷茫,拼命爭(zhēng)奪友商客戶的無(wú)奈,都促使云廠商急切地尋找更多的增量市場(chǎng)。
大模型的出現(xiàn)為云廠商帶來(lái)新的增量曙光。在今年不少云廠商的財(cái)報(bào)中,AI對(duì)云業(yè)務(wù)的收入貢獻(xiàn)都十分亮眼。今年二季度,AI推動(dòng)阿里云重回增長(zhǎng),季度營(yíng)收增長(zhǎng)6%至265.49億元,其中AI相關(guān)產(chǎn)品收入實(shí)現(xiàn)三位數(shù)增長(zhǎng),公共云業(yè)務(wù)實(shí)現(xiàn)兩位數(shù)增長(zhǎng);騰訊方面也表示,受益于包括云服務(wù)業(yè)務(wù)收入增長(zhǎng)在內(nèi)的因素,企業(yè)服務(wù)業(yè)務(wù)收入實(shí)現(xiàn)雙位數(shù)增長(zhǎng)率。
不少人預(yù)測(cè),AI大模型將成為未來(lái)云市場(chǎng)增長(zhǎng)的最大動(dòng)力,也是公有云服務(wù)重回高增長(zhǎng)時(shí)代的唯一機(jī)會(huì)。而在這種預(yù)判下,所以騰訊云成立智算品牌,其他云廠商也在緊鑼密鼓布局。大模型能否真正驅(qū)動(dòng)云用量,仍存在爭(zhēng)議。國(guó)內(nèi) AI 公有云服務(wù)市場(chǎng)規(guī)模雖有增長(zhǎng),但在各家云廠商的激烈競(jìng)爭(zhēng)下,分到的份額似乎難以滿足云廠商的巨大胃口。就拿IDC剛發(fā)布的《AI Cloud 2023》報(bào)告數(shù)據(jù)來(lái)看,國(guó)內(nèi)AI公有云服務(wù)市場(chǎng)2023年規(guī)模為126億,相比前一年增長(zhǎng)58.2%。增速是喜人的,但仔細(xì)一算,126億的規(guī)模被各家云廠商瓜分下來(lái),到手也不過幾億到幾十億不等,這個(gè)數(shù)字對(duì)云廠商營(yíng)收拉動(dòng)力確實(shí)是有,但似乎不那么大。
大模型究竟能為云帶來(lái)多大的增長(zhǎng),時(shí)間自會(huì)給出答案。但眼下,從各家云廠商緊鑼密鼓的布局來(lái)看,一場(chǎng)激烈的智算實(shí)力比拼賽已然無(wú)聲地拉開帷幕,未來(lái)的云市場(chǎng)究竟走向何方,我們拭目以待。