6月13日,2024上海國際嵌入式展開幕,在此次展會期間芯原股份召開了主題為“從云到端,AI觸手可及”的“芯原AI專題技術(shù)研討會”。芯原股份介紹了其AI產(chǎn)品線布局及面向AIGC的芯片設(shè)計平臺和軟件解決方案。
近年來,人工智能(AI)可謂是非常的火爆,特別是隨著生成式AI在云端的發(fā)展并進(jìn)入終端側(cè),推動了對于各類AI芯片需求的爆發(fā)。作為國產(chǎn)半導(dǎo)體IP大廠,芯原擁有豐富的與AI相關(guān)的NPU、GPU、ISP、VPU IP產(chǎn)品線,并且得到了極為廣泛應(yīng)用。
據(jù)芯原股份執(zhí)行副總裁、IP事業(yè)部總經(jīng)理戴偉介紹,在過去七年里,芯原在嵌入式AI/NPU領(lǐng)域全球領(lǐng)先,其NPU IP已被72家客戶用于128款A(yù)I芯片當(dāng)中,主要應(yīng)用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧電視、智慧家居、安防監(jiān)控、服務(wù)器、汽車電子、智能手機(jī)、平板電腦、智慧醫(yī)療等10個市場領(lǐng)域。目前,集成了芯原NPU IP的AI類芯片已在全球范圍內(nèi)出貨超過1億顆。
除了專用的AI加速的NPU IP之外,在目前被廣泛應(yīng)用于通用AI加速的GPU方面,芯原也擁有一系列自研的GPU IP。芯原在GPU領(lǐng)域也已經(jīng)耕耘了20多年,擁有70項國外專利,集成了其GPU IP的芯片已在全球累計出貨近20億顆,并進(jìn)入了近千萬輛汽車。
在目前生成式人工智能大模型在云端及邊緣端蓬勃發(fā)展的趨勢之下,芯原根據(jù)目前市場的需求,基于自身NPU IP可伸縮可擴(kuò)展的特性,已發(fā)展了覆蓋從高性能云計算到低功耗邊緣計算的生成式AI解決方案,包括專門面向邊緣端大模型的NPU IP——VIP9X00以及AI-GPU IP,以及面向云端大模型的Tensor Core GPU IP——CCTC-MP。
芯原股份NPU IP研發(fā)總監(jiān)查凱南表示,端側(cè)AI性能很重要,但是功耗、面積對于端側(cè)的IP更重要,一定要有比較好的PPA。因為端側(cè)主要是要做推理,也要有一些浮點運算的能力,更關(guān)注的是低比特的量化及壓縮能力。而在云端一定是高性能、非常高的TOPS,它要能夠去做訓(xùn)練和推理。而且不光是單卡的訓(xùn)練推理,還要做分布式的推理訓(xùn)練,需要多卡多機(jī)的能力,所以它需要的更多是通用的GPGPU的編程模型,需要比較高的浮點跟定點算力的配比,對于高精度是比較重要的,然后還要能夠去接入到大的生態(tài)當(dāng)中去。
在過去兩年當(dāng)中,Transformer基本已經(jīng)變成一個主導(dǎo)的模型架構(gòu),不僅僅是在大語言模型上面,在視覺、語音、Pixel等,都有比較好的表現(xiàn)。相對于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),Transformer整個的效果提升是比較明顯的。因此,在芯原最新的NPU架構(gòu)里面也專門對Transformer做了定制優(yōu)化,包括4bit、8bit、16×4、16×8等。能夠去把權(quán)重做4bit和8bit的量化壓縮,能夠大大減少帶寬的消耗。對于通用的矩陣運算,GEMM/GEMV,大模型需要的Transformer里面需要的大量卷積運算,以及在Transformer里面有不同的Vector直接構(gòu)建到里面的帶寬。芯原針對Transformer相關(guān)的網(wǎng)絡(luò)性能提升了10倍。
據(jù)查凱南介紹,芯原的端側(cè)NPU能夠?qū)崿F(xiàn)48TOPS的算力,能夠支持在終端側(cè)的大模型運行。比如在Stable?Diffusion 1.5模型下,芯原的NPU可以在2秒內(nèi)進(jìn)行20步推理;在LLaMA2 7B模型下,芯原的NPU能夠在1秒內(nèi)生生成20個Token。
目前,芯原股份的端側(cè)NPU IP已經(jīng)可以支持智能手機(jī)、AI PC、智能汽車等邊緣設(shè)備上的大模型的運行。
同時芯原基于自研的NPU IP和ISP IP等其他豐富的處理器IP儲備,還推出了一系列創(chuàng)新的AI-ISP、AI-GPU等子系統(tǒng),以應(yīng)對人工智能不斷發(fā)展的應(yīng)用需求。
據(jù)介紹,芯原最新的面向邊緣和云端大模型提供優(yōu)化的圖像數(shù)據(jù)的AI ISP芯片在9個月內(nèi)就完成了從開案到流片,軟件SDK在流片前就完成了所有功能驗證。該芯片基于臺積電N6制程,集成了高性能的RISC-V內(nèi)核,擁有良好的PPA,模擬待機(jī)功耗低于4mW,AI增強(qiáng)拍照功耗也低于3.5W。
另外,在視頻處理方面,基于芯原AI VPU(視頻處理器)IP的第一代視頻轉(zhuǎn)碼加速解決方案,在提供傳統(tǒng)高端CPU 6倍轉(zhuǎn)碼能力的同時,功耗僅為其1/13。這一創(chuàng)新技術(shù)已成功應(yīng)用于全球頭部芯片公司定制的基于5nm工藝的媒體加速器芯片,并已進(jìn)入量產(chǎn)階段。
為便于開發(fā)者對于各種大模型的部署以及各種AI應(yīng)用軟件的開發(fā),芯原也基于自己的AI-Computing IP產(chǎn)品線推出了配套的AI-Computing軟件框架。
“不管是端側(cè)還是云側(cè),整個芯原AI-Computing軟件都是通用的軟件棧。應(yīng)用層有框架上面比較支持PyTorch、Transformer。專門針對大模型的,我們會選擇去支持VLLM的框架。再往下走有通用的算子加速庫及運算圖加速庫、以及多核間通訊庫,底層會支持有標(biāo)準(zhǔn)的OpenCL、OpenVX,編譯器及驅(qū)動。整個芯原的推理工具鏈,是芯原自研可以通過工具鏈直接導(dǎo)入所有類型框架的,內(nèi)部自嵌一些量化的功能、可以去直接生成一個非常易于部署的Generate Binary??梢灾С?a class="article-link" target="_blank" href="/manufacturer/1000144/">微軟的ONNX Runtime,今年10月還會接入OpenAI的Triton?!辈閯P南介紹道。
除了前面提及的與AI相關(guān)的NPU、GPU IP、VPU IP、ISP IP之外,芯原還擁有視頻/語音DSP?IP、顯示處理器IP,以及1,500多個數(shù)?;旌螴P和射頻IP,已經(jīng)服務(wù)了近400家IP授權(quán)客戶,可以支持客戶的各類的AI SoC的設(shè)計。
此外,芯原還擁有一站式的設(shè)計服務(wù)平臺,每年流片30-50顆芯片,累計出貨了10000片14nm FinFET晶圓,近30000片10nm FinFET晶圓。芯原在2018年就完成了全球首批7nm EUV芯片流片一次成功,并且已有5nm SoC一次流片成功,多個一站式服務(wù)項目正在執(zhí)行。
據(jù)芯原股份高級副總裁、定制芯片平臺事業(yè)部總經(jīng)理汪志偉介紹,芯原的SiPaaS系統(tǒng)級芯片設(shè)計平臺既可以滿足數(shù)據(jù)中心要求的高性能AIGC芯片的設(shè)計需求,基于Chiplet構(gòu)建云端高性能AIGC方案;也能夠滿足基于Chiplet技術(shù)的下一代可擴(kuò)展高性能自動駕駛芯片設(shè)計需求,利用超高算力在邊緣端運行大模型。
同時,芯原還提供了完整的軟件解決方案,可以滿足推理、訓(xùn)練和數(shù)據(jù)通信需求。
在此次的2024上海國際嵌入式展上,芯原也展示了集成芯原神經(jīng)網(wǎng)絡(luò)處理器(NPU)IP的新一代8K電視及領(lǐng)先的智能相機(jī);集成芯原視頻處理器(VPU)IP的新一代無人機(jī);內(nèi)嵌芯原圖形處理器(GPU)IP和顯示處理器IP的智能手表及AR眼鏡;內(nèi)嵌芯原IP的智慧家居設(shè)備等;基于芯原GPGPU IP和NPU IP的藍(lán)洋智加速卡的高性能AI PC產(chǎn)品;基于芯原雙通道圖像信號處理器(ISP)IP的銀牛視覺AI處理器等;芯原第二代數(shù)據(jù)中心視頻轉(zhuǎn)碼平臺解決方案等。
編輯:芯智訊-浪客劍