日前,摩爾線程宣布AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實(shí)現(xiàn)重大升級(jí),從千卡級(jí)別大幅擴(kuò)展至萬(wàn)卡規(guī)模。該集群以全功能GPU為底座,專為萬(wàn)億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì),旨在打造能夠承載萬(wàn)卡規(guī)模、具備萬(wàn)P級(jí)浮點(diǎn)運(yùn)算能力的國(guó)產(chǎn)通用加速計(jì)算平臺(tái)。
“摩爾線程推出夸娥(KUAE)萬(wàn)卡智算集群解決方案,希望能夠建設(shè)一個(gè)規(guī)模超萬(wàn)卡、場(chǎng)景更通用、生態(tài)兼容好的加速計(jì)算平臺(tái),并優(yōu)先解決大模型訓(xùn)練的難題”,摩爾線程創(chuàng)始人兼CEO張建中表示:“夸娥萬(wàn)卡智算集群作為摩爾線程全棧AI戰(zhàn)略的一塊重要拼圖,可為各行各業(yè)數(shù)智化轉(zhuǎn)型提供澎湃算力?!?/p>
AI大模型持續(xù)擴(kuò)展趨勢(shì)下,萬(wàn)卡通用算力成為標(biāo)配
張建中指出,“通用加速計(jì)算平臺(tái)正處在黃金時(shí)刻,我們看到了Scaling Law這個(gè)演進(jìn)規(guī)律:需要單點(diǎn)規(guī)模夠大并且通用的算力,才能快速跟上技術(shù)演進(jìn)變化。如果規(guī)模夠大、計(jì)算通用、生態(tài)兼容這三點(diǎn)都做好的話,對(duì)使用者來(lái)說(shuō)就是非常好用的平臺(tái)。”
摩爾線程創(chuàng)始人兼CEO 張建中
所謂萬(wàn)卡集群,是指由一萬(wàn)張及以上的計(jì)算加速卡(如GPU)組成的高性能計(jì)算系統(tǒng),用以訓(xùn)練基礎(chǔ)大模型。該類集群充分整合高性能GPU計(jì)算、高性能RDMA網(wǎng)絡(luò)、高性能并行文件存儲(chǔ)、智算平臺(tái)等關(guān)鍵技術(shù),將底層基礎(chǔ)設(shè)施整合成為一臺(tái)“超級(jí)計(jì)算機(jī)”,可支持千億級(jí)甚至萬(wàn)億級(jí)參數(shù)規(guī)模的大模型訓(xùn)練,有助于大幅壓縮大模型訓(xùn)練時(shí)間,以實(shí)現(xiàn)模型能力的快速迭代。
一些重要的趨勢(shì)正在演進(jìn):一方面,Transformer架構(gòu)仍在加速進(jìn)步,它雖然是目前的主流架構(gòu),但是并不會(huì)大一統(tǒng),其他創(chuàng)新架構(gòu)仍在不斷出現(xiàn),如Mamba、RWKV和RetNet等,旨在提升計(jì)算效率,加速迭代創(chuàng)新。
另一方面,AI+3D+HPC在實(shí)現(xiàn)加速融合,從而帶來(lái)計(jì)算范式的變化。比如AI+3D、AI+仿真計(jì)算、AI+FP64科學(xué)計(jì)算等,這些都需要通用加速計(jì)算平臺(tái),才能滿足更多場(chǎng)景對(duì)多元計(jì)算的需求。
應(yīng)對(duì)上述趨勢(shì),一個(gè)“大且通用”的加速計(jì)算平臺(tái)越來(lái)越成為標(biāo)配,以縮短訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代。
國(guó)際頭部公司正在積極部署千卡乃至超萬(wàn)卡規(guī)模的計(jì)算集群,比如:Google推出的超級(jí)計(jì)算機(jī) A3 Virtual Machines,擁有26000塊 Nvidia H100 GPU,同時(shí)基于自研芯片搭建了TPUv5p 8960卡集群;Meta 今年初公布了2個(gè)24576塊Nvidia H100的集群,用于支持下一代生成式Al模型的訓(xùn)練。
國(guó)內(nèi)市場(chǎng)方面,通信運(yùn)營(yíng)商、頭部互聯(lián)網(wǎng)、大型AI研發(fā)企業(yè)、AI初創(chuàng)企業(yè)等都在超萬(wàn)卡集群的建設(shè)和使用過(guò)程中不斷推動(dòng)技術(shù)革新。例如字節(jié)跳動(dòng)、阿里巴巴、百度等互聯(lián)網(wǎng)公司正在積極推進(jìn)超萬(wàn)卡集群的建設(shè)。其中,字節(jié)跳動(dòng)搭建了12288 卡的Ampere架構(gòu)訓(xùn)練集群,研發(fā)MegaScale生產(chǎn)系統(tǒng)用于訓(xùn)練大語(yǔ)言模型;科大訊飛在2023年建成了首個(gè)支持大模型訓(xùn)練的超萬(wàn)卡集群算力平臺(tái)“飛星一號(hào)”。
“國(guó)產(chǎn)智算萬(wàn)卡集群——做難而正確的事”
萬(wàn)卡集群并不是一萬(wàn)張GPU卡的簡(jiǎn)單堆疊,而是一個(gè)超級(jí)復(fù)雜的系統(tǒng)工程。
張建中指出,萬(wàn)卡集群當(dāng)前面臨的主要問(wèn)題,包括超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率、訓(xùn)練高穩(wěn)定與高可用、故障快速定位與可診斷工具、生態(tài)Day0級(jí)快速遷移、未來(lái)場(chǎng)景通用計(jì)算等。
這其中涉及諸多的技術(shù)難點(diǎn),僅以超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率(MFU)以及訓(xùn)練的高穩(wěn)定性這三項(xiàng)技術(shù)細(xì)節(jié)來(lái)看:
超大規(guī)模組網(wǎng)互聯(lián)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)等,而不同的網(wǎng)絡(luò)需要采取不同的組網(wǎng)部署方式。超萬(wàn)卡集群對(duì)參數(shù)面網(wǎng)絡(luò)(計(jì)算網(wǎng)絡(luò))的要求最高,因?yàn)樗饕糜谟?jì)算節(jié)點(diǎn)之間的參數(shù)交換,要求具備高帶寬無(wú)損能力。并且,參數(shù)面網(wǎng)絡(luò)的速度與穩(wěn)定性決定著整個(gè)集群的運(yùn)行效率,要通過(guò)各種擁塞控制優(yōu)化機(jī)制、負(fù)載均衡以及故障快速感知等技術(shù)手段,才能保證網(wǎng)絡(luò)傳輸?shù)牧銇G包無(wú)損、高吞吐與高穩(wěn)定等。
集群有效計(jì)算效率即MFU方面,大量實(shí)踐表明,集群規(guī)模的線性提升無(wú)法直接帶來(lái)集群有效算力的線性提升,因?yàn)槭芟抻谛酒?jì)算性能(芯片及算子使用效率)、GPU顯存的訪問(wèn)性能(內(nèi)存和I/O訪問(wèn)瓶頸)、卡間互聯(lián)帶寬、有效的分布式并行策略等。
在訓(xùn)練的高穩(wěn)定與高可用方面,由于超萬(wàn)卡集群是由數(shù)千臺(tái)GPU服務(wù)器、數(shù)千臺(tái)交換機(jī)、數(shù)萬(wàn)根光纖/數(shù)萬(wàn)顆光模塊構(gòu)成,訓(xùn)練任務(wù)涉及上千萬(wàn)器件的共同作業(yè),任何一個(gè)部件比如一個(gè)網(wǎng)卡、一個(gè)光模塊或一個(gè)GPU故障,整個(gè)集群就會(huì)宕機(jī)導(dǎo)致訓(xùn)練中斷。因此,萬(wàn)卡集群高穩(wěn)定和高可用是個(gè)非常大的難題。
“盡管萬(wàn)卡建設(shè)難,挑戰(zhàn)巨大,但摩爾線程堅(jiān)信,這是一條難而正確的道路,我們致力于通過(guò)夸娥萬(wàn)卡智算集群,為AI大模型與通用人工智能的發(fā)展提供堅(jiān)實(shí)的支撐”,張建中表示。
以國(guó)產(chǎn)全功能GPU為技術(shù)底座,摩爾線程的夸娥萬(wàn)卡智算解決方案實(shí)現(xiàn)了幾大核心的護(hù)城河:
- 超大算力,萬(wàn)卡萬(wàn)P:?jiǎn)渭阂?guī)模超萬(wàn)卡,浮點(diǎn)運(yùn)算能力達(dá)10Exa-Flops,提供PB級(jí)顯存容量和超高速卡間與節(jié)點(diǎn)間互聯(lián)帶寬,實(shí)現(xiàn)算力、顯存和帶寬的協(xié)同優(yōu)化。
- 超高穩(wěn)定,月級(jí)長(zhǎng)穩(wěn)訓(xùn)練:平均無(wú)故障運(yùn)行時(shí)間超15天,支持30天以上長(zhǎng)穩(wěn)訓(xùn)練,周均訓(xùn)練有效率超過(guò)99%,采用多級(jí)可靠機(jī)制實(shí)現(xiàn)軟硬件故障快速定位和訓(xùn)練任務(wù)快速恢復(fù)。
- 極致優(yōu)化,超高M(jìn)FU:MFU最高達(dá)60%,通過(guò)系統(tǒng)軟件、框架、算法優(yōu)化,支持自適應(yīng)混合并行策略和顯存優(yōu)化,有效縮減計(jì)算時(shí)間和顯存占用,提升訓(xùn)練效率。
- 全能通用,生態(tài)友好:適用于多種架構(gòu)和模態(tài)的大模型,可加速LLM、MoE、多模態(tài)、Mamba等不同架構(gòu)、不同模態(tài)的大模型?;贛USA編程語(yǔ)言和CUDA兼容能力,可實(shí)現(xiàn)新模型快速遷移和生態(tài)適配,加速業(yè)務(wù)上線。
相信AGI到來(lái),致力于全功能的通用加速計(jì)算平臺(tái)
張建中解釋說(shuō),集群不是“堆卡“,主要在于單位功耗的算力在提升,而這來(lái)源于整個(gè)架構(gòu)的改善、效率的提升,需要整個(gè)系統(tǒng)的調(diào)優(yōu)。實(shí)際上,從千卡到萬(wàn)卡的升級(jí)建設(shè)過(guò)程中,萬(wàn)卡平均每瓦的算力提升了很多。
同時(shí),國(guó)產(chǎn)集群具有生態(tài)兼容性優(yōu)勢(shì),開發(fā)者移植到夸娥集群上,幾乎不需要修改代碼,遷移成本接近0,可以在數(shù)小時(shí)之內(nèi)就完成遷移工作,能夠顯著節(jié)約用戶和廠商的資源。
依據(jù)以往千卡級(jí)集群的建設(shè)和使用經(jīng)驗(yàn)來(lái)看,如果是首次適配,通常數(shù)小時(shí)之內(nèi)就可以在平臺(tái)上運(yùn)行起來(lái);而對(duì)于已適配的大模型,用戶無(wú)需額外工作即可運(yùn)行。對(duì)于性能調(diào)優(yōu)來(lái)說(shuō),是一個(gè)相對(duì)耗時(shí)的過(guò)程,因不同模型和芯片廠商的策略而有不同。
毫無(wú)疑問(wèn),在算力規(guī)模持續(xù)擴(kuò)大的趨勢(shì)下,網(wǎng)絡(luò)通信能力成為一大關(guān)鍵。特別是對(duì)于建設(shè)萬(wàn)卡以上的集群來(lái)說(shuō),交換機(jī)技術(shù)是必備的。
據(jù)了解,摩爾線程目前在卡間互連采用自研MTLink,現(xiàn)在已經(jīng)更迭到2.0版本。交換機(jī)方面,采用的行業(yè)的交換機(jī)芯片搭建集群。張建中表示,摩爾線程后續(xù)會(huì)進(jìn)行自研,或與行業(yè)合作伙伴共同研發(fā)下一代的大規(guī)模交換機(jī)。
他認(rèn)為,AGI一定會(huì)到來(lái)。隨著各種不同算法進(jìn)步,真正算力平臺(tái)應(yīng)用場(chǎng)景的建設(shè),越來(lái)越多的大模型應(yīng)用場(chǎng)景會(huì)得到驗(yàn)證。當(dāng)萬(wàn)卡集群建立起來(lái),Scaling(擴(kuò)展性)向上,準(zhǔn)確度、精度、IQ能力都在提升的話,就會(huì)產(chǎn)生實(shí)際價(jià)值,因此未來(lái)的集群建設(shè)會(huì)是逐步提升的過(guò)程。
雖然暫時(shí)可能無(wú)法完全解決全行業(yè)的算力短缺問(wèn)題,但張建中表示有決心解決大模型領(lǐng)域缺少大算力的問(wèn)題。摩爾線程將提供提供全功能的通用加速計(jì)算平臺(tái),增加行業(yè)選擇,激發(fā)開發(fā)者的創(chuàng)新潛力,鼓勵(lì)他們探索更廣泛的應(yīng)用場(chǎng)景,以促進(jìn)更多的創(chuàng)新。