作者|薛良Neil,郵箱|neilshen@pingwest.com
只有算力是不夠的
AI 服務(wù)器是大模型戰(zhàn)爭(zhēng)中兵家必爭(zhēng)之地,因?yàn)樗砹俗顬榫o俏和稀缺的算力資源。浪潮信息則正是中國(guó)大陸最大的服務(wù)器提供商。
每?jī)膳_(tái)AI服務(wù)器就有一臺(tái)出自浪潮信息——將AI算力芯片經(jīng)過(guò)系統(tǒng)化的整機(jī)設(shè)計(jì),最終變成包括計(jì)算單元、存儲(chǔ)單元、散熱單元和供電系統(tǒng)等在內(nèi)的完整產(chǎn)品交付給客戶。
在大模型出現(xiàn)之前,算力資源可以直接用服務(wù)器的數(shù)量來(lái)表示,需要多少算力,就購(gòu)買多少臺(tái)服務(wù)器就可以了,彼此的換算關(guān)系幾乎是透明的。正因如此,浪潮信息所做的事情一度被認(rèn)為非常簡(jiǎn)單——賣盡可能多的服務(wù)器就好。
但大模型的出現(xiàn)改變了這一切。
盡管每個(gè)人都在談?wù)撍懔退木o缺,但許多人不知道的是,即便有了充分的 GPU 芯片供應(yīng),訓(xùn)練大模型依然是一個(gè)非常復(fù)雜和艱困的過(guò)程。
比如僅僅是把幾千張卡串聯(lián)起來(lái)就是一個(gè)工程學(xué)上的大問(wèn)題,國(guó)內(nèi)有現(xiàn)成經(jīng)驗(yàn)的只有幾家最大的云廠商。再比如,相比傳統(tǒng)的分布式訓(xùn)練,大模型訓(xùn)練過(guò)程更復(fù)雜,周期也更長(zhǎng),這就要求服務(wù)器集群在充分運(yùn)用算力資源、提升性能的同時(shí)保證整個(gè)系統(tǒng)的穩(wěn)定性,在這個(gè)領(lǐng)域幾乎全行業(yè)都處于摸索階段。
一個(gè)現(xiàn)實(shí)的數(shù)字是,未經(jīng)工程優(yōu)化的情況下,許多企業(yè)的服務(wù)器效率甚至只有 20%-30%,考慮到大模型算力的高昂成本,這種浪費(fèi)無(wú)疑十分驚人。
但這一關(guān)又是不得不過(guò)的。
百模大戰(zhàn)中,許多大模型是通過(guò) API 調(diào)用或者云的方式訓(xùn)練出來(lái)的,為了追求速度這本無(wú)可厚非,但要想讓大模型變得真正落地、可用,則必須進(jìn)行算力的本地化部署,因?yàn)樯虡I(yè)化能力的構(gòu)建是離不開本地算力資源作為后盾的。
這很像是十年前公有云計(jì)算發(fā)展的脈絡(luò),在起步階段第一波應(yīng)用過(guò)后,公有云的普適化能力開始逐步落地到場(chǎng)景和行業(yè)中,于是本地化就隨之開始了。
然而本地化又談何容易呢?除了上面提到的服務(wù)器部署這種直接相關(guān)的痛點(diǎn)外,大模型訓(xùn)練實(shí)際上是一個(gè)冰冷的系統(tǒng)性工程問(wèn)題,從數(shù)據(jù)清洗到算力適配,從性能兼容適配到軟硬件協(xié)同,這些實(shí)踐中的一個(gè)個(gè)坑所帶來(lái)的挑戰(zhàn)絲毫不遜于算力本身,它們共同影響著大模型的性能與落地的速度。
“客戶最關(guān)心的就是本地化部署應(yīng)用?!币晃唤咏顺毙畔⒖蛻魝?cè)服務(wù)的人士向品玩表示。根據(jù)公開數(shù)據(jù)的粗略統(tǒng)計(jì),參與百模大戰(zhàn)的企業(yè)中有高達(dá) 80%都是浪潮信息的客戶,因而企業(yè)本地化部署的問(wèn)題,幾乎也成了浪潮信息的問(wèn)題。
僅僅是單純賣硬件算力已經(jīng)不夠了,人工智能行業(yè)的極速變化要求浪潮信息也隨之變化。
OGAI:針對(duì)大模型的五層解法
在 2021 年,也就是GPT 爆發(fā)之前,浪潮信息就推出了名為“源”的大模型,這個(gè)有 2457 億參數(shù)的中文大模型,從數(shù)據(jù)搜集到千卡集群算力支撐的模型訓(xùn)練和推理都是浪潮信息自己完成的,也就是說(shuō),早在大模型成為一個(gè)現(xiàn)象級(jí)詞匯之前,浪潮信息已經(jīng)有了切實(shí)的第一手關(guān)于大模型開發(fā)、訓(xùn)練和微調(diào)的經(jīng)驗(yàn)。
這讓浪潮信息收獲頗豐,比如在數(shù)據(jù)側(cè),從公開數(shù)據(jù)爬取、清洗到格式轉(zhuǎn)化和質(zhì)量評(píng)估,浪潮信息最終擁有了一個(gè)高達(dá) 5TB 的原創(chuàng)中文數(shù)據(jù)集,而在最重要的計(jì)算效率方面,浪潮信息已經(jīng)可以達(dá)至50%左右。
從某種意義上說(shuō),這種行業(yè) know how 經(jīng)驗(yàn)甚至是奢侈的,只有浪潮信息這種算力供應(yīng)商才能負(fù)擔(dān)得起——要知道“源”模型的參數(shù)量比 GPT3 還多了 700 億。
這些經(jīng)驗(yàn)最終成為了浪潮信息在 8 月 24 號(hào)發(fā)布的“元腦生智”:大模型智算軟件棧 OGAI(Open GenAI Infra) 的一部分。如果用一句話解釋OGAI 是什么的話,浪潮信息希望你把它理解為一個(gè)生長(zhǎng)在浪潮信息服務(wù)器硬件上的,專門基于大模型開發(fā)的全棧全流程能軟件套組。在硬件側(cè),它能夠最大化實(shí)現(xiàn)對(duì) GPU 算力的調(diào)用,軟件方面則從煉大模型的一開始就幫助開發(fā)者提升效率。
OGAI一共分為五層,從 L0 到 L2主要針對(duì)的是大模型基礎(chǔ)算力環(huán)境的效率提升。其中 L0 層是浪潮信息的智算中心OS,負(fù)責(zé)直接管理和分配算力資源,可以提供多租戶的無(wú)損裸機(jī)算力環(huán)境。這有點(diǎn)像本地版本的云調(diào)度平臺(tái),宛如最底層的操作系統(tǒng)一樣,面向大模型的算力需求實(shí)現(xiàn)對(duì)硬件的集中管理。
第二層 PODsys 是一個(gè)開源項(xiàng)目,它集成了系統(tǒng)環(huán)境部署的工具鏈。PODsys ?有點(diǎn)像是長(zhǎng)在初始化操作系統(tǒng)上的驅(qū)動(dòng)程序,針對(duì)不同的環(huán)境和需求,實(shí)現(xiàn)從環(huán)境部署、系統(tǒng)監(jiān)控和和資源調(diào)度的參數(shù)自動(dòng)化配置。由于是開源項(xiàng)目,PODsys軟件包大量集合了業(yè)界廣泛使用的主流開源工具和框架,用戶只需要執(zhí)行非常簡(jiǎn)單的命令就能完成對(duì)整個(gè)算力集群的配置。
PODsys工具鏈?zhǔn)抢顺毙畔⒌氖讋?chuàng),它實(shí)現(xiàn)的功能在過(guò)去是由人力來(lái)提供的,打個(gè)不太恰當(dāng)?shù)谋确剑悬c(diǎn)像是買組合臺(tái)式電腦時(shí)工程師上門進(jìn)行的驅(qū)動(dòng)安裝服務(wù)。隨著整個(gè)數(shù)據(jù)中心行業(yè)向加速計(jì)算轉(zhuǎn)型,對(duì)專家服務(wù)的需求也隨之?dāng)U大,PODsys 這位“專家”的出現(xiàn)省去了用戶在環(huán)境配置和優(yōu)化上花費(fèi)的成本。
L2 層是基礎(chǔ)環(huán)境配置的最后一層,名為 AIStation ,它已經(jīng)迭代到了4.0 版本,簡(jiǎn)單來(lái)說(shuō),它是浪潮信息研發(fā)的一款商業(yè)化軟件,聚焦于對(duì) AI 算力資源的精準(zhǔn)調(diào)度。
大模型訓(xùn)練所花費(fèi)的時(shí)間往往高達(dá)數(shù)十甚至上百天,因此對(duì)系統(tǒng)的算力、存儲(chǔ)和網(wǎng)絡(luò)的統(tǒng)一調(diào)度就顯得十分重要。AIStation 支持單一集群數(shù)萬(wàn)個(gè)GPU 以及計(jì)算節(jié)點(diǎn)的介入和調(diào)度,有效把 L0 層已經(jīng)池化的算力資源進(jìn)行恰當(dāng)分配以實(shí)現(xiàn)最大限度的調(diào)用效率,特別是它的斷點(diǎn)自動(dòng)續(xù)訓(xùn)能力,可以有效保證大模型訓(xùn)練的穩(wěn)定性。
第四層名為 YLink。在基礎(chǔ)環(huán)境構(gòu)建完畢后,YLink精準(zhǔn)對(duì)標(biāo)大模型訓(xùn)練的 know how 問(wèn)題。模型開發(fā)的兩個(gè)環(huán)節(jié),數(shù)據(jù)處理和模型訓(xùn)練在這一層都能找到對(duì)應(yīng)的工具包,因此你可以把YLink當(dāng)做浪潮信息專門為模型開發(fā)設(shè)計(jì)的能力支持層,標(biāo)準(zhǔn)化的數(shù)據(jù)處理工具、分布式訓(xùn)練框架和對(duì)應(yīng)腳本以及微調(diào)用到的參數(shù)和指令調(diào)整都被集合在了一起,模型預(yù)訓(xùn)練的效率和微調(diào)的質(zhì)量都將因此得到提升。
最后一層則是 MModel,它可以對(duì)各種版本和類型模型進(jìn)行評(píng)估和管理,甚至還可以把它看做一個(gè)模型商店——開發(fā)者可以通過(guò) MModel 分享自己的模型和數(shù)據(jù)集。
根據(jù)浪潮信息人工智能與高性能應(yīng)用軟件部 AI 架構(gòu)師Owen Zhu的介紹,由五層架構(gòu)組合起來(lái)的 OGAI 內(nèi)部每一層的功能都是解耦的,不同的用戶根據(jù)自身的場(chǎng)景可以按照需要獨(dú)立選擇每一層的功能。
當(dāng)硬件廠商向上兼容
OGAI 可以被看作由硬件廠商基于硬件和自身經(jīng)驗(yàn)所設(shè)計(jì)的一種端到端的大模型解決方案。
“OGAI 等于是把浪潮信息的模型能力平臺(tái)化構(gòu)建出的一種解決方案。”發(fā)布會(huì)現(xiàn)場(chǎng)的一位廠商如此向品玩表示。五層架構(gòu)完整地覆蓋了從最底層的算力調(diào)度到模型發(fā)布的全流程,理想情況下,開發(fā)者基于浪潮信息的硬件環(huán)境就能實(shí)現(xiàn)大模型開發(fā)的“開箱即用”。
在這五層架構(gòu)中,PODsys 和 YLink 層都屬于業(yè)界首創(chuàng),尤其是 PODsys 層,在此之前沒有人用一套完整工具鏈實(shí)現(xiàn)對(duì)算力基礎(chǔ)環(huán)境配置的能力?;蛘吣憧梢赃@樣理解,只有類似浪潮信息這樣的硬件提供商才有能力和動(dòng)機(jī)提供這種一攬子套件,因?yàn)槔顺毙畔⒉粌H足夠了解硬件,同時(shí)也積累了足夠豐富的商業(yè)化落地經(jīng)驗(yàn)。
在分秒必爭(zhēng)的大模型競(jìng)賽中,這種經(jīng)驗(yàn)成為了浪潮信息十分獨(dú)特的優(yōu)勢(shì),它極大縮短了服務(wù)器集群設(shè)置所需要的時(shí)間,等于間接為模型開發(fā)提速。
我們可以看到,由硬件廠商和算力提供商,而不是軟件服務(wù)集成商,主動(dòng)推出大模型解決方案實(shí)際上已經(jīng)成為了一種趨勢(shì)。國(guó)內(nèi)百度云和阿里云都各自上線了相關(guān)的模型服務(wù)和社區(qū),國(guó)外的云廠商,從巨頭如微軟 Azure 到初創(chuàng)公司 CoreWeave 都在努力降低算力的使用門檻,用戶使用瀏覽器就能方便地一鍵調(diào)用其算力用于大模型訓(xùn)練。
而依靠在 GPU 領(lǐng)域享有幾乎壟斷地位,進(jìn)而在 AI 時(shí)代大賺特賺的英偉達(dá)實(shí)際上也在通過(guò)密集發(fā)布各種軟件方案來(lái)促進(jìn)大模型技術(shù)的廣泛落地,比如和DGX 等英偉達(dá)服務(wù)器集成在一起的由幾千個(gè)加速庫(kù)和工具套件以及集群管理軟件組成的英偉達(dá) AI Enterprise ,以及 8 月剛剛由黃仁勛親自發(fā)布的,整合了原本分散在各處的大模型開發(fā)工具與流程的英偉達(dá) AI Workbench,這些方案的最終目的都是盡可能讓開發(fā)者聚焦于高效訓(xùn)練模型本身。
但無(wú)論云廠商也好,英偉達(dá)也罷,它們的解決方案都有各自的弱點(diǎn),云的方案在非常強(qiáng)調(diào)本地化的中國(guó)市場(chǎng)有各種水土不服的情況,尤其是在數(shù)據(jù)和隱私安全性方面。英偉達(dá)的解決方案盡管是同它的硬件能力結(jié)合的最好的,但一方面CUDA 生態(tài)本身是閉源的,而另一方面,不管是出于成本還是地緣政治現(xiàn)實(shí)的考慮,更多的用戶實(shí)際上更需要的是跨多種硬件的,開源的解決方案。
由此,浪潮信息的 OGAI 站在了一個(gè)獨(dú)特的位置上。一方面它滿足了本地化部署的需求,另一方面這套解決方案并不是如行業(yè)最近熱炒的“AI 一體機(jī)”一樣與硬件進(jìn)行了深度綁定,實(shí)際上這套方案本身都是解耦的,也就是說(shuō),盡管OGAI 是一套端到端的,囊括了產(chǎn)品和工具鏈的完整服務(wù),但在具體使用的過(guò)程中,它完全可以依照開發(fā)者的需求進(jìn)行非常自由的搭配,浪潮信息只是提供了一個(gè)解法,足夠可靠,但并不唯一。
它是一個(gè)最懂大模型商業(yè)化落地場(chǎng)景的基礎(chǔ)設(shè)施提供商,為這場(chǎng)百模大戰(zhàn)貢獻(xiàn)的獨(dú)一無(wú)二的答案。