久久黄色视频免费观看,国产乱码字幕精品高清AV

2023年，大模型的突破和生成式AI的興起，正在引領AI產業(yè)邁入智能創(chuàng)新的新階段，同時也將引發(fā)算力架構的新變局。

根據最新發(fā)布的《2023-2024年中國人工智能計算力發(fā)展評估報告》，全球人工智能硬件市場（服務器）規(guī)模將從2022年的195億美元增長到2026年的347億美元，五年年復合增長率達17.3%；在中國，預計2023年中國人工智能服務器市場規(guī)模將達到91億美元，同比增長82.5%，2027年將達到134 億美元，五年年復合增長率達21.8%。中國算力市場、特別是智算領域，正在蓬勃發(fā)展。

CPU+GPU成為AI異構計算主要方式

大模型時代，構建和調優(yōu)生成式AI基礎模型以滿足應用需求，將為整個基礎設施市場帶來改變和發(fā)展機遇。 “以應用為導向、系統(tǒng)為核心”，將是未來算力升級的主要路徑。

從技術發(fā)展視角來看，異構計算仍然是芯片發(fā)展趨勢之一。在單一系統(tǒng)中，異構計算通過利用不同類型的處理器（如CPU、GPU、ASIC、FPGA、NPU等）協(xié)同工作，執(zhí)行特定任務，以優(yōu)化性能和效率，更高效地利用不同類型的計算資源，滿足不同的計算需求。比如，通過發(fā)揮GPU并行處理能力，可以提高模型，尤其是大模型的訓練速度和效率；在數據預處理、模型調優(yōu)等階段，可以使用CPU進行計算和決策，或在控制和協(xié)調計算資源(如GPU、FPGA等) 的工作過程中使用CPU，以確保計算過程的順利進行；此外，可通過使用FPGA進行推理加速，從而將模型實現在邊緣設備的部署，以開展更快速的實時推理工作。

IDC調查研究顯示，截至2023年10月，中國市場普遍認為“CPU+GPU”的異構方式是AI異構計算的主要組合形式。

圖：人工智能訓練和推理工作負載選用的計算架構
（來源：《2023-2024年中國人工智能計算力發(fā)展評估報告》）

大模型時代，AI芯片三大挑戰(zhàn)

AI算力需求的提升給中國本土芯片廠商的發(fā)展提供了較大的空間，帶來新的機遇。IDC預計，2023年中國人工智能芯片出貨量將達到133.5萬片，同比增長 22.5%。

在面臨廣闊機會的同時，大模型時代，我國AI芯片也面臨著新的發(fā)展挑戰(zhàn)。首先，與國際領先AI芯片差距較大，以英偉達最新發(fā)布的H200 GPU為例，性能已經達到其A100 GPU近5倍。而我國AI芯片的大模型集群訓練性能，只有個別接近A100/A800，大多數不到其性能的50%，這也意味著，我國AI芯片在大模型訓練性能方面，與國際領先水平約是3年的代際差距。

其次，生態(tài)方面，英偉達的CUDA經過17年、累計超過100億美元的資金投入，全球開發(fā)者已經超過300萬，成為全球AI開發(fā)處于壟斷地位的基礎庫。反觀國內AI芯片企業(yè)，整體市場占有率加起來不超過10%，且各家AI芯片軟件各異、生態(tài)零碎割裂。

此外，在當前時代背景下，我國AI芯片產能受阻、向高端芯片進階關鍵技術受限等，也在一定程度上制約了AI芯片的發(fā)展。

破解異構算力三重難題

基于當前現狀，北京智源人工智能研究院副院長兼總工程師林詠華提出，大模型時代，我國異構算力主要面臨三重束縛。

異構算力束縛一：不一樣的算力，不能合池訓練

具體而言，當前異構混合分布式訓練存在如下挑戰(zhàn)：不同架構設備的軟硬件棧不兼容，數值精度也可能存在差異；不同架構設備之間很難高效通信；不同設備算力和內存不同，很難進行負載均衡切分。

這些挑戰(zhàn)很難一次性解決，目前智源已經嘗試在相同架構不同代際設備或者在兼容架構的不同設備上進行異構訓練，未來將探索不同架構設備上的異構訓練。FlagScale是一個支持多廠商異構算力合池訓練的框架，當前實現了異構流水線并行及異構數據并行兩種模式。

異構流水線并行：在該模式實際訓練時，可以跟數據并行、張量并行以及序列并行進行混合來實現高效訓練。根據反向傳播算法內存使用特點，該模式適合將內存比較大的設備放在流水線并行靠前的階段，內存小的設備放在流水線并行靠后的階段，然后根據再設備的算力來分配不同的網絡層來實現負載均衡。
異構數據并行模式：在該模式實際訓練時，可以跟張量并行、流水線并行以及序列并行進行混合來實現大規(guī)模高效訓練。算力和內存都比較大的設備將處理較大的微批次大小，而算力和內存都比較小的設備將處理較小的微批次大小，從而實現不同設備上的負載均衡。

根據智源所展示的在英偉達和天數智芯集群的三組異構混合訓練實驗結果，顯示異構混合訓練收益較好，在三種配置情況下接近甚至超過了性能上限，這說明異構混合訓練的效率損耗較低，獲得了較好的訓練收益。

林詠華介紹，異構算力合池訓練框架FlagScale正在實現英偉達算力集群與天數智芯算力集群的異構合池訓練，未來將實現更多不同中國廠商算力集群之間的異構合池訓練，推動不同廠商異構芯片的通信庫標準化，實現高速互通互聯。

她表示，在芯片的迭代更新過程中，肯定存在新、舊代際芯片混用的過程，希望繼續(xù)攻關兼容異構芯片的混合訓練技術，也希望在同一個數據中心，各種商業(yè)資源可以靈活組合，將性能和效率最大化。

異構算力束縛二：受CUDA制約，算子庫在不同硬件上適配難度大

當前，我國AI芯片軟件生態(tài)薄弱，主流AI框架以支持英偉達芯片為主。對于國產AI芯片來說，需要適配多款框架，每次AI框架版本升級，需要重復適配；同時，各AI芯片廠商有自己的底層軟件棧，彼此不兼容。

在大模型需求下，上述問題帶來三大影響：第一，針對大模型需要的算子及優(yōu)化方法缺失，導致模型無法運行或者運行效率低；第二，會出現因為芯片架構和配套的軟件實現差異而帶來的精度誤差問題；第三，要在國產AI芯片上實現大模型訓練，需要大量移植工作，適配遷移成本很高。

對此，林詠華認為，構建公共的AI芯片開放軟件生態(tài)非常關鍵，結合大模型研究和發(fā)展需求，基礎架構層面要構建基于下一代開放、中立的AI編譯器中間層，并且要適配PyTorch框架，支持開源編程語言及編譯器擴展。下一步，要繼續(xù)探索最大化硬件基礎架構性能和利用率的共性核心技術，對典型和復雜算子的軟硬件協(xié)同極限優(yōu)化，使得成果開源開放，高效支撐大模型訓練。

異構算力束縛三：芯片架構、軟件各異，評測難度大，影響落地進展

當前，AI芯片企業(yè)眾多，各自架構和開發(fā)工具鏈不同，且AI框架眾多，再加上層出不窮的場景和復雜多變的模型，導致適配工作量大、開發(fā)復雜度高、評測標準難統(tǒng)一，影響了產品的落地和規(guī)?；瘧?。

林詠華認為，AI異構芯片的評測，對行業(yè)生態(tài)有重要價值。當前，業(yè)界缺少被廣泛認可的、中立的、開源開放的、針對異構芯片的評測體系。應該建立開源的AI芯片評測項目，具體包括基礎環(huán)境、異構芯片基礎軟件、測試集等，對模型運行的支持情況、芯片的訓練時間和計算吞吐量、芯片和服務器其他零部件的使用情況、芯片對不同框架和軟件生態(tài)的支持能力等方面，進行全方位評測。

寫在最后

AI大模型的發(fā)展提升了智能算力的需求。IDC數據顯示，2022-2027年，我國智能算力規(guī)模年復合增長率達33.9%，超越同期通用算力規(guī)模16.6%的年復合增長率。

本土AI芯片廠商正面臨著新的機遇和挑戰(zhàn)。針對單芯片算力的瓶頸問題、多芯片異構合池訓練難題，以全局思維打造算力基礎設施平臺成為未來的關鍵。特別是在構建與硬件匹配的軟件生態(tài)，包括操作系統(tǒng)、中間件和工具鏈等方面，隨著大模型從基礎研發(fā)走向應用落地，軟件基礎設施的重要性和價值將會進一步凸顯。這也是大模型在完成了“從0到1”的預訓練之后，在通往“從1到100”的應用和大規(guī)模落地過程中，AI芯片作為核心基礎環(huán)節(jié)必須完成的修煉，也將給中國AI芯片產業(yè)帶來深遠的影響。

器件型號	數量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
FS32K146HAT0MLLT	1	NXP Semiconductors	RISC Microcontroller	ECAD模型下載ECAD模型	$11.53	查看
ATSAMA5D31A-CU	1	Atmel Corporation	RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324	ECAD模型下載ECAD模型	$22.61	查看
CP2102N-A02-GQFN24R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-24	ECAD模型下載ECAD模型	$2.59	查看

器件型號

數量

器件廠商

器件描述

數據手冊

ECAD模型

風險等級

參考價格

更多信息

FS32K146HAT0MLLT

NXP Semiconductors

RISC Microcontroller

$11.53

查看

ATSAMA5D31A-CU

Atmel Corporation

RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324

$22.61

查看

CP2102N-A02-GQFN24R

Silicon Laboratories Inc

USB Bus Controller, CMOS, QFN-24

$2.59

查看

AI大模型這艘“燒錢”游輪上，中國芯片如何乘風破浪？

CPU+GPU成為AI異構計算主要方式

大模型時代，AI芯片三大挑戰(zhàn)

破解異構算力三重難題

寫在最后

推薦器件

相關推薦

AI大模型這艘“燒錢”游輪上，中國芯片如何乘風破浪？

CPU+GPU成為AI異構計算主要方式

大模型時代，AI芯片三大挑戰(zhàn)

破解異構算力三重難題

寫在最后

推薦器件

相關推薦

AI大模型這艘“燒錢”游輪上，中國芯片如何乘風破浪？