加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶(hù)
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 01.天翼云萬(wàn)卡方案破解三大挑戰(zhàn)可訓(xùn)萬(wàn)億參數(shù)基礎(chǔ)模型
    • 02.一站式智算服務(wù)行業(yè)大模型訓(xùn)推三步走
    • 03.結(jié)語(yǔ):國(guó)家隊(duì)出手智算云助力產(chǎn)業(yè)數(shù)智升級(jí)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

越過(guò)智算云發(fā)展拐點(diǎn)!解讀天翼云智算服務(wù),用“組合拳”突圍大模型訓(xùn)推難題

07/10 08:20
969
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者?|??香草

編輯?|??漠影

天翼云萬(wàn)卡方案驅(qū)動(dòng)萬(wàn)億參數(shù)大模型訓(xùn)練

在大模型熱潮的推動(dòng)下,AI算力呈現(xiàn)出爆炸式的增長(zhǎng),為云計(jì)算行業(yè)帶來(lái)新的機(jī)遇。但同時(shí),如何滿(mǎn)足巨大的算力需求,提供高性能、強(qiáng)穩(wěn)定的解決方案等,也為云廠商帶來(lái)新的挑戰(zhàn)。云計(jì)算廠商如何在智能云賽道中突圍?智東西7月9日?qǐng)?bào)道,在2024世界人工智能大會(huì)(WAIC 2024)期間,天翼云科技有限公司董事長(zhǎng)、總經(jīng)理胡志強(qiáng)帶來(lái)主題演講,深入解讀了天翼云在智算資源供給、智算服務(wù)能力、模型應(yīng)用生態(tài)三個(gè)方面的能力。

具體來(lái)說(shuō),天翼云自建了豐富的智算資源,并匯集了大量社會(huì)智算資源;基于一體化計(jì)算加速平臺(tái)云驍、一站式智算服務(wù)平臺(tái)慧聚,能承載萬(wàn)億參數(shù)規(guī)模的基礎(chǔ)大模型訓(xùn)練及行業(yè)大模型訓(xùn)練推理;推出AI云電腦,構(gòu)建紅云大模型開(kāi)發(fā)者社區(qū),打造開(kāi)放的模型生態(tài)。

其中在智算服務(wù)方面,天翼云聚焦基礎(chǔ)大模型、行業(yè)大模型兩大場(chǎng)景,分別提供模型開(kāi)發(fā)訓(xùn)練、訓(xùn)練推理等服務(wù),通過(guò)云驍、慧聚兩大平臺(tái)打造了萬(wàn)卡集群的平臺(tái)化能力和解決方案能力,為客戶(hù)提供高效、便捷、穩(wěn)定的智算服務(wù)。天翼云智算服務(wù)具體能解決哪些行業(yè)痛點(diǎn)?是否已經(jīng)在企業(yè)中落地并取得一定成效?帶著這些疑問(wèn),我們?cè)噲D尋找答案。

01.天翼云萬(wàn)卡方案破解三大挑戰(zhàn)可訓(xùn)萬(wàn)億參數(shù)基礎(chǔ)模型

現(xiàn)階段,大模型的參數(shù)量在Scaling Law的推動(dòng)下持續(xù)增長(zhǎng)。以OpenAI等第一梯隊(duì)的大模型公司為例,其一直在擴(kuò)充訓(xùn)練數(shù)據(jù)、加大算力投入、堆積模型參數(shù)等方向上前進(jìn),尤其是基礎(chǔ)大模型,呈現(xiàn)出參數(shù)越來(lái)越大的趨勢(shì)。

而隨著模型參數(shù)的增加,對(duì)計(jì)算資源、存儲(chǔ)能力和網(wǎng)絡(luò)帶寬等需求也隨之增加,這對(duì)AI基礎(chǔ)設(shè)施提出高要求。胡志強(qiáng)談道,天翼云在支撐中國(guó)電信星辰大模型訓(xùn)練過(guò)程中,遇到的挑戰(zhàn)主要集中在三個(gè)方面:算力、性能和穩(wěn)定性

算力方面,要訓(xùn)練一個(gè)萬(wàn)億參數(shù)大模型,至少需要單集群6000卡,甚至萬(wàn)卡以上規(guī)模,并通過(guò)同等規(guī)模的亞毫秒延時(shí)級(jí)RDMA(遠(yuǎn)程直接數(shù)據(jù)存?。┚W(wǎng)絡(luò),才能支撐訓(xùn)練過(guò)程中PB級(jí)的數(shù)據(jù)存取。

性能方面,大規(guī)模的分布式訓(xùn)練對(duì)算力、存儲(chǔ)、網(wǎng)絡(luò)協(xié)同難度大,模型訓(xùn)練中生成的Checkpoint文件大、讀寫(xiě)速度慢等諸多性能問(wèn)題,導(dǎo)致大模型訓(xùn)練綜合效率低下。

穩(wěn)定性方面,AI基礎(chǔ)設(shè)施軟硬件技術(shù)棧復(fù)雜,任何中斷或錯(cuò)誤都可能導(dǎo)致訓(xùn)練失敗,重新開(kāi)始不僅浪費(fèi)時(shí)間,也增加了成本。例如,硬件故障率高,且故障難以發(fā)現(xiàn)、恢復(fù)速度慢,嚴(yán)重影響大模型訓(xùn)練效率。針對(duì)這些痛點(diǎn),云計(jì)算廠商應(yīng)如何破解?

天翼云交出的答卷,是面向超大規(guī)模參數(shù)基礎(chǔ)大模型開(kāi)發(fā)訓(xùn)練的萬(wàn)卡解決方案。具體來(lái)說(shuō),天翼云基于單集群萬(wàn)卡智算中心,結(jié)合一體化計(jì)算加速平臺(tái)云驍、一站式智算服務(wù)平臺(tái)慧聚,從基礎(chǔ)設(shè)施到平臺(tái),構(gòu)建了基礎(chǔ)大模型訓(xùn)練解決方案。

算力層面,天翼云以可橫向擴(kuò)展的PB級(jí)并行文件存儲(chǔ)服務(wù)(HPFS),提供高性能、亞毫秒級(jí)時(shí)延的并行文件存儲(chǔ)能力;以超大規(guī)模二層RDMA網(wǎng)絡(luò),滿(mǎn)足基礎(chǔ)算力的需求;同時(shí),通過(guò)對(duì)計(jì)算、內(nèi)存、通信等方面的多維優(yōu)化,提升了綜合算效。

性能層面,天翼云對(duì)AI框架進(jìn)行升級(jí),使編譯效率翻倍;通過(guò)拓?fù)涓兄{(diào)度,大幅提升集合通信效率;基于存儲(chǔ)異步加速,實(shí)現(xiàn)Checkpoint文件快速保存及加載。

穩(wěn)定性層面,基于對(duì)200多項(xiàng)指標(biāo)的實(shí)時(shí)監(jiān)控,模型訓(xùn)練單次不中斷運(yùn)行可達(dá)近一周時(shí)間;且一旦發(fā)生故障,可迅速斷點(diǎn)續(xù)訓(xùn),實(shí)現(xiàn)高穩(wěn)定可用運(yùn)行?;趪?guó)產(chǎn)萬(wàn)卡智算集群和自研智算平臺(tái),天翼云智算服務(wù)已經(jīng)具備支撐萬(wàn)億參數(shù)基礎(chǔ)大模型訓(xùn)練的能力。

從系統(tǒng)工程上來(lái)看,要構(gòu)建國(guó)產(chǎn)萬(wàn)卡集群,并不只是堆疊一萬(wàn)張卡這么簡(jiǎn)單,還涉及到硬件設(shè)計(jì)、軟件架構(gòu)、網(wǎng)絡(luò)通信、能源管理以及系統(tǒng)穩(wěn)定性等多個(gè)方面的綜合考量,包括超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計(jì)算、長(zhǎng)期穩(wěn)定性和高可用性等技術(shù)難題。

天翼云提供的萬(wàn)卡解決方案,展示了國(guó)產(chǎn)算力如何通過(guò)技術(shù)創(chuàng)新來(lái)應(yīng)對(duì)這些挑戰(zhàn),這不僅對(duì)天翼云自身是巨大的技術(shù)突破,也為整個(gè)行業(yè)提供了啟示。

02.一站式智算服務(wù)行業(yè)大模型訓(xùn)推三步走

在本屆WAIC上,除了眾多基礎(chǔ)大模型的迭代更新引人注目外,行業(yè)大模型如何推動(dòng)技術(shù)落地,也成為備受關(guān)注的話(huà)題。不同于基礎(chǔ)大模型注重通用性和廣泛適用性,行業(yè)大模型更側(cè)重于特定行業(yè)的定制化需求。

在落地層面,尤其是面向企業(yè)場(chǎng)景,行業(yè)大模型發(fā)揮了至關(guān)重要的作用。

而在技術(shù)層面,基礎(chǔ)大模型的開(kāi)發(fā)重點(diǎn)在于模型的訓(xùn)練過(guò)程,包括模型架構(gòu)的設(shè)計(jì)、大規(guī)模數(shù)據(jù)集的構(gòu)建等;行業(yè)大模型則更側(cè)重于訓(xùn)練推理過(guò)程,即如何對(duì)訓(xùn)練好的模型面向不同場(chǎng)景進(jìn)行微調(diào),并應(yīng)用到實(shí)際場(chǎng)景中,解決具體問(wèn)題。行業(yè)大模型的訓(xùn)推服務(wù)同樣面臨三大挑戰(zhàn):訓(xùn)練部署工程化復(fù)雜、訓(xùn)推效率低、訓(xùn)練中斷頻繁。

基于云驍、慧聚兩大平臺(tái),天翼云面向行業(yè)大模型訓(xùn)推場(chǎng)景提供一站式的智算服務(wù),針對(duì)性地破解這三個(gè)難題。

訓(xùn)練部署工程方面,行業(yè)大模型通常需要處理特定領(lǐng)域的復(fù)雜數(shù)據(jù),這要求模型訓(xùn)練和部署過(guò)程中必須考慮數(shù)據(jù)的多樣性和特定性,這帶來(lái)數(shù)據(jù)的清洗、標(biāo)注,模型的適配、訓(xùn)練、調(diào)優(yōu)、量化及部署等7個(gè)環(huán)節(jié)的難題,因此,自動(dòng)化流程的建立對(duì)于簡(jiǎn)化訓(xùn)練部署至關(guān)重要。

針對(duì)這些復(fù)雜環(huán)節(jié),慧聚平臺(tái)提供全棧工具鏈,通過(guò)預(yù)置行業(yè)數(shù)據(jù)集、支持國(guó)內(nèi)外主流AI加速硬件、預(yù)置多個(gè)基礎(chǔ)大模型等能力,實(shí)現(xiàn)大模型訓(xùn)推三步走??蛻?hù)只需要經(jīng)過(guò)選數(shù)據(jù)、選硬件、選模型三個(gè)步驟,就可以實(shí)現(xiàn)大模型精調(diào)。

訓(xùn)練效率方面,大模型的訓(xùn)推過(guò)程需要大量計(jì)算資源,如何高效利用這些資源、避免資源浪費(fèi),是提高訓(xùn)推效率的關(guān)鍵。例如,在訓(xùn)推過(guò)程中,數(shù)據(jù)需要在不同的處理單元之間傳輸,數(shù)據(jù)傳輸的效率直接影響到整體的訓(xùn)推速度。

針對(duì)模型參數(shù)量大、算子運(yùn)行效率低、模型開(kāi)箱性能低等因素,天翼云通過(guò)自研AI框架、3D并行加速、自研訓(xùn)練加速庫(kù)、容器調(diào)度優(yōu)化等核心技術(shù),大幅提升訓(xùn)練效率。為了進(jìn)一步優(yōu)化模型結(jié)構(gòu)和算法、節(jié)省算力成本、提高模型運(yùn)行速度,天翼云使用了模型量化壓縮、自研推理加速算子庫(kù)、自硏AI推理加速框架等核心技術(shù),讓模型推理效率得到顯著提升。

訓(xùn)練連續(xù)性方面,特別是在大規(guī)模訓(xùn)練過(guò)程中,硬件故障是導(dǎo)致訓(xùn)練中斷的常見(jiàn)原因;同時(shí),軟件或配置錯(cuò)誤、數(shù)據(jù)輸入錯(cuò)誤、運(yùn)行環(huán)境不穩(wěn)定等問(wèn)題也常常導(dǎo)致訓(xùn)練的中斷。如何在全鏈路感知故障并準(zhǔn)確定位,成為解決訓(xùn)練頻繁中斷難題的重要挑戰(zhàn)。

天翼云通過(guò)全鏈路故障分鐘級(jí)檢測(cè)、定位、告警,全鏈路日志監(jiān)控與可視化、斷點(diǎn)續(xù)訓(xùn)快速恢復(fù)等核心技術(shù),實(shí)現(xiàn)訓(xùn)推過(guò)程全鏈路監(jiān)控?;谝徽臼降闹撬惴?wù)能力,天翼云為國(guó)內(nèi)領(lǐng)先的AI公司提供AI基礎(chǔ)設(shè)施層服務(wù),縮短其語(yǔ)音識(shí)別模型訓(xùn)練時(shí)間周期并降低算力成本;在科研、制造業(yè)等領(lǐng)域,天翼云智算服務(wù)也已經(jīng)落地,幫助客戶(hù)進(jìn)行大模型訓(xùn)練和微調(diào),降低科研、科技創(chuàng)新成本。

隨著AI技術(shù)落地的需求增長(zhǎng),行業(yè)大模型也將迎來(lái)更廣闊的應(yīng)用前景。天翼云提供的一站式智算服務(wù)能力不僅能幫助企業(yè)客戶(hù)突破瓶頸,也能在實(shí)踐過(guò)程中不斷汲取經(jīng)驗(yàn)再進(jìn)化,推動(dòng)技術(shù)迭代創(chuàng)新。

03.結(jié)語(yǔ):國(guó)家隊(duì)出手智算云助力產(chǎn)業(yè)數(shù)智升級(jí)

在WAIC 2024現(xiàn)場(chǎng),天翼云以最新的智算成果亮相,展出了單體萬(wàn)卡液冷智算池,息壤、云驍、慧聚三大智算平臺(tái),AI云電腦以及基于天翼云智算云底座的星辰大模型等技術(shù)成果。

作為云服務(wù)國(guó)家隊(duì),天翼云沒(méi)有拘泥于現(xiàn)有的技術(shù)和市場(chǎng)格局,而是以開(kāi)放的心態(tài)和前瞻的視野,積極探索和引領(lǐng)云計(jì)算和AI領(lǐng)域的新趨勢(shì)。基于豐富的智算資源儲(chǔ)備、強(qiáng)大的智算服務(wù)能力以及開(kāi)放的模型應(yīng)用社區(qū),天翼云正在加速布局全新的智算云生態(tài),為千行百業(yè)向智、向新發(fā)展注入國(guó)云力量。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32F207ZGT6TR 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下載ECAD模型
$13.88 查看
ATXMEGA128A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$4.91 查看
ATXMEGA256A3BU-MH 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64QFN

ECAD模型

下載ECAD模型
$5.86 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜