加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 聯(lián)想攜手中國智能計算產(chǎn)業(yè)聯(lián)盟,成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟
    • 聯(lián)想萬全異構(gòu)智算平臺,五大創(chuàng)新優(yōu)化算力使用效率
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

聯(lián)想深化異構(gòu)智算布局,打造AI 2.0時代“智算基石”

04/19 16:50
2186
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

人工智能AI)和智能計算產(chǎn)業(yè)逐漸成為國家重點發(fā)展領(lǐng)域的當下,生成式AI在各行業(yè)的應(yīng)用不斷深入,以“大模型+大算力+大數(shù)據(jù)”為核心的新一代AI發(fā)展模式正在形成。為了適應(yīng)未來計算資源的融合發(fā)展趨勢,算力基礎(chǔ)設(shè)施的快速發(fā)展變得尤為關(guān)鍵。聯(lián)想作為智能基礎(chǔ)設(shè)施及服務(wù)提供商,正在面向AI、云計算、大數(shù)據(jù)等多種計算場景,為中國智算產(chǎn)業(yè)發(fā)展和生態(tài)繁榮,夯實智算基石。

4月18日,聯(lián)想創(chuàng)新科技大會(2024 Lenovo Tech World)在上海舉辦。此次大會上,聯(lián)想發(fā)布了萬全異構(gòu)智算平臺,以突破當前計算瓶頸。并且,聯(lián)想集團與中國智能計算產(chǎn)業(yè)聯(lián)盟共同宣布,發(fā)起成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟,聯(lián)合產(chǎn)業(yè)頭部生態(tài)伙伴共建聯(lián)想萬全生態(tài)。

聯(lián)想攜手中國智能計算產(chǎn)業(yè)聯(lián)盟,成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟

第十四屆全國政協(xié)委員、中國科學院計算技術(shù)研究所研究員張云泉,聯(lián)想集團副總裁、中國基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬,分別代表中國智能計算產(chǎn)業(yè)聯(lián)盟與聯(lián)想集團共同啟動聯(lián)盟成立;同時中國科學院院士、生物信息學家陳潤生,清華大學計算機科學與技術(shù)系教授陳文光,中國信息通信研究院云計算與大數(shù)據(jù)研究所所長何寶宏,中國智能計算產(chǎn)業(yè)聯(lián)盟秘書長安靜,共同參與并見證異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟啟動儀式。

異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟啟動

據(jù)介紹,異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟旨在攜手成員共同建設(shè)一個分工合作、規(guī)范有序、安全健康的智算產(chǎn)業(yè)生態(tài),加速大模型推動的智算產(chǎn)業(yè)化進程,推動AI基礎(chǔ)設(shè)施的融合發(fā)展,共同提升中國智算產(chǎn)業(yè)的水平。異構(gòu)智算生態(tài)聯(lián)盟成立之后,將持續(xù)籌備異構(gòu)智算相關(guān)專家研討會、異構(gòu)智算聯(lián)盟高峰論壇等活動,深入探討異構(gòu)智算最新產(chǎn)業(yè)趨勢、研究成果和創(chuàng)新方向。

異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟框架由AI芯片層、AI設(shè)備與系統(tǒng)層和AI平臺與應(yīng)用層,能夠?qū)崿F(xiàn)從IaaS平臺、AI訓練與推理到行業(yè)場景解決方案的全覆蓋。

目前,異構(gòu)智算生態(tài)聯(lián)盟首批共計16家成員單位,包括10家國產(chǎn)AI芯片廠商。生態(tài)聯(lián)盟成立后,將陸續(xù)發(fā)布異構(gòu)智算最新成果,計劃推動《國際人工智能算力性能排行榜——AIPerf500》評選,共創(chuàng)及發(fā)布《異構(gòu)智算白皮書》以及《2024國家行業(yè)發(fā)展報告(智能計算方向)》等內(nèi)容,引導(dǎo)中國智算產(chǎn)業(yè)健康發(fā)展。

聯(lián)想集團副總裁、中國基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬表示,智算產(chǎn)業(yè)的高速繁榮發(fā)展,離不開人工智能產(chǎn)業(yè)中每一個努力拼搏,不斷創(chuàng)新的企業(yè)。聯(lián)想將持續(xù)秉持合作共贏的理念,愿與眾多優(yōu)秀的伙伴們一道,加大資源投入,深耕場景,打磨產(chǎn)品,為中國智算產(chǎn)業(yè)的蓬勃發(fā)展提供堅實基礎(chǔ)。


聯(lián)想集團副總裁、中國基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬

聯(lián)想萬全異構(gòu)智算平臺,五大創(chuàng)新優(yōu)化算力使用效率

面向以大模型為基礎(chǔ)特征的AI 2.0時代,“大模型+大算力+大數(shù)據(jù)”成為新一代人工智能發(fā)展的基本范式。不過,智能計算較通用計算的投入成本、技術(shù)門檻更高,廣大用戶需要一個新的計算開發(fā)和管理平臺,能夠集成算力管理與調(diào)度,數(shù)據(jù)治理與模型優(yōu)化、訓練精調(diào)和推理應(yīng)用開發(fā)等多層次的能力,為使用者提供更簡單、更高效、更穩(wěn)定的算力體驗。

在此背景下,聯(lián)想萬全異構(gòu)智算平臺應(yīng)運而生,其差異化價值在于能夠以創(chuàng)新技術(shù)突破計算效率瓶頸。對于用戶而言,異構(gòu)智算平臺能夠幫助用戶提高應(yīng)用部署速度,降低業(yè)務(wù)TCO(全周期使用成本)。在基礎(chǔ)設(shè)施層面,它能夠提升算力利用率和可用性。

據(jù)了解,聯(lián)想萬全異構(gòu)智算平臺集成了五大創(chuàng)新技術(shù):算力匹配魔方、GPU內(nèi)核態(tài)虛擬化、聯(lián)想集合通信算法庫、AI高效斷點續(xù)訓技術(shù)、AI與HPC集群超級調(diào)度器,分別從不同方面幫助用戶解決問題。

  • 算力匹配魔方:為用戶跳過繁雜的算力選擇和驗證。

基于海量的硬件評測和AI算子算法集成工作,聯(lián)想構(gòu)建了AI場景與算法與集群硬件三者匹配關(guān)系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關(guān)系。針對不同場景,可以全自動規(guī)劃和調(diào)度最佳算法和集群配置,用戶只需輸入場景和數(shù)據(jù),即可自動加載最優(yōu)算法和調(diào)度最佳集群配置。

  • GPU內(nèi)核態(tài)虛擬化:挖掘處理器潛力,讓vGPU利用率從80%提升到95%。

在AI推理和中小訓練中,子任務(wù)通常以虛擬GPU進行承載,業(yè)界目前普遍在操作系統(tǒng)層以用戶態(tài)對GPU做虛擬化,而用戶態(tài)虛擬化因不能對GPU做深層控制,會造成虛擬算力不穩(wěn)定,調(diào)度開銷大等問題,從而造成近20%的算力損耗。

為此,聯(lián)想研究院開發(fā)了在GPU驅(qū)動層的內(nèi)核態(tài)虛擬化算法。該算法具備三大革新:一是對算力和顯存精準隔離的算法能以<3%的誤差精準控制容器資源。二是在GPU驅(qū)動層做資源調(diào)度,去掉在驅(qū)動之上不必要的操作。三是在GPU驅(qū)動層將虛擬GPU的顆粒度精細到1%。新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。

  • 聯(lián)想集合通信算法庫:突破集群計算瓶頸,使訓練效率提升10%—15%。

在大規(guī)模的AI集群中,性能釋放的最大瓶頸受制于網(wǎng)絡(luò)通信慢。網(wǎng)絡(luò)通信慢會導(dǎo)致GPU空閑等待,計算效率降低。針對大規(guī)模集群網(wǎng)絡(luò)通信瓶頸的挑戰(zhàn),聯(lián)想萬全異構(gòu)智算平臺能自動感知集群網(wǎng)絡(luò)拓撲,并選擇和采用經(jīng)聯(lián)想增強的集合通信算法使數(shù)據(jù)傳輸在最佳路徑。以千卡規(guī)模集群為例,采用集成了聯(lián)想集合通信庫的聯(lián)想萬全異構(gòu)智算平臺做管理調(diào)度,可使網(wǎng)絡(luò)通信效率提升超10%,并且集群規(guī)模越大,效果越顯著。

  • AI高效斷點續(xù)訓技術(shù):實現(xiàn)分鐘級AI斷點續(xù)訓,讓AI集群持續(xù)可用。

據(jù)統(tǒng)計,目前千卡集群每月至少有15次的故障斷點。在常規(guī)的斷點續(xù)訓手段下,每次恢復(fù)訓練需要幾個小時,產(chǎn)生的額外費用超過百萬元。聯(lián)想萬全異構(gòu)智算平臺針對故障特征來對數(shù)據(jù)做多級備份,大幅精簡了備份數(shù)據(jù)量,同時令備份數(shù)據(jù)從最佳路徑被提取。同時,對大量的AI訓練故障進行了特征采樣,基于AI故障特征庫,開發(fā)了預(yù)測AI訓練故障的AI模型,實現(xiàn)“用AI來預(yù)測AI”。此外,聯(lián)想萬全異構(gòu)智算平臺集成了從服務(wù)器BMC,存儲管理,網(wǎng)絡(luò)OS的硬件監(jiān)控,到調(diào)度器故障監(jiān)控,再到對AI訓練收斂程度的監(jiān)控,對AI故障的抓取能夠做到萬無一失。

由此三大革新,聯(lián)想能將斷點續(xù)訓恢復(fù)時間縮減到分鐘級,大幅提升了訓練效率。以千卡集群為例,聯(lián)想每月可節(jié)約上百萬元算力費用支出,讓寶貴的AI算力持續(xù)可用。

  • AI與HPC集群超級調(diào)度器:破局算力孤島,1小時內(nèi)自動完成跨集群資源調(diào)度和共享。

對于有些同時擁有AI和HPC算力的用戶,希望能在不同集群間,根據(jù)任務(wù)優(yōu)先級和資源狀況,充分共享利用GPU節(jié)點。然而,由于AI和HPC集群的調(diào)度方式完全不同,用戶在不同集群間共享資源時,既要通曉兩種調(diào)度方法,又要付出大量操作,導(dǎo)致無法實現(xiàn)資源共享。

聯(lián)想AI與HPC超級調(diào)度器架構(gòu)的精髓之處就是做出能指揮雙類型調(diào)度的最精簡架構(gòu),在AI的K8S調(diào)度和HPC的Slurm調(diào)度之上,能夠切換AI和HPC的調(diào)度溝通,能全局監(jiān)控任務(wù)和動態(tài)共享資源,使得用戶可以充分利用基礎(chǔ)設(shè)施的每一分算力。

聯(lián)想萬全異構(gòu)智算平臺,作為一個能高度自動化完成AI全流程開發(fā)的平臺,可輸出高可用算力并不斷突破計算效率瓶頸的利器。用戶可自動完成AI計算并發(fā)布模型或發(fā)布推理服務(wù)。此外,平臺也為專業(yè)的AI開發(fā)用戶留有手動深入調(diào)整計算過程的空間,包括工具和模型的選擇,算力配置的調(diào)整,對任務(wù)的定制化監(jiān)控等。

陳振寬表示,“聯(lián)想萬全異構(gòu)智算平臺”是AI 2.0時代聯(lián)想中國基礎(chǔ)設(shè)施戰(zhàn)略框架的核心。未來聯(lián)想將挑戰(zhàn)超過萬卡規(guī)模集群的通信算法優(yōu)化,挑戰(zhàn)秒級的斷點續(xù)訓,深入研究相變式液冷技術(shù),布局模塊化液冷數(shù)據(jù)中心,助力聯(lián)想AI算力朝著更強大、更穩(wěn)定、更高效和更綠色的方向?qū)崿F(xiàn)高質(zhì)量發(fā)展。

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA16D4-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$3.06 查看
MCP23S17T-E/SS 1 Microchip Technology Inc 16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28

ECAD模型

下載ECAD模型
$1.74 查看
MK66FN2M0VLQ18 1 NXP Semiconductors FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144

ECAD模型

下載ECAD模型
$48.66 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~