加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • [CPU+NPU+GPU]將成為AI PC的算力基座
    • NPU將在AI PC落地生花
    • 趨勢(shì)看好,各大廠紛紛推出相關(guān)產(chǎn)品
    • [算力融合]只是美好的理想
    • 結(jié)尾:
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

產(chǎn)業(yè)丨CPU、GPU、NPU,究竟誰才是[AI PC]的主角?

03/23 09:25
5645
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者 | 方文三

通用CPU和GPU服務(wù)平臺(tái)在功耗和散熱受限的終端上的運(yùn)用,其差異性需求難以應(yīng)對(duì)AI用例嚴(yán)苛且多樣化的計(jì)算要求。

算力是實(shí)現(xiàn)AI PC各項(xiàng)功能的前提,終端異構(gòu)混合(CPU+NPU+GPU)算力或許是AI規(guī)模化落地的要求。

[CPU+NPU+GPU]將成為AI PC的算力基座

不同類型的處理器擅長(zhǎng)的工作領(lǐng)域各異,這正是異構(gòu)計(jì)算的核心原理——讓專業(yè)的人做專業(yè)的事。

CPU擅長(zhǎng)順序控制,適用于需要低延時(shí)的場(chǎng)景,同時(shí)也能夠處理較小的傳統(tǒng)模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)或特定的大語言模型(LLM)。

而GPU更擅長(zhǎng)處理高精度格式的并行任務(wù),例如對(duì)畫質(zhì)要求極高的視頻和游戲。

CPU和GPU作為通用處理器,設(shè)計(jì)靈活,易于編程,主要負(fù)責(zé)操作系統(tǒng)、游戲和其他應(yīng)用。

然而,對(duì)于處理大規(guī)模的神經(jīng)網(wǎng)絡(luò)計(jì)算,CPU的效率相對(duì)較低。

NPU則采用數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算的架構(gòu),模擬人類神經(jīng)元和突觸,特別擅長(zhǎng)處理視頻、圖像等海量多媒體數(shù)據(jù)。

與遵循馮諾依曼架構(gòu)的CPU和GPU不同,NPU通過突觸權(quán)重實(shí)現(xiàn)存儲(chǔ)計(jì)算一體化,運(yùn)行效率更高,尤其擅長(zhǎng)推理。

鑒于終端的功耗和散熱限制,通用CPU和GPU難以滿足生成式AI應(yīng)用嚴(yán)苛且多樣化的計(jì)算需求。

這些應(yīng)用不斷演進(jìn)和多樣化,單一硬件部署并不合理。

因此,NPU和異構(gòu)計(jì)算成為硬件廠商應(yīng)對(duì)終端側(cè)生成式AI挑戰(zhàn)的關(guān)鍵。

值得注意的是,盡管GPU在并行計(jì)算能力上具有優(yōu)勢(shì),但仍需與CPU協(xié)同工作。

神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和數(shù)據(jù)流傳遞主要在CPU上完成。

然而,GPU存在功耗高、體積大、價(jià)格昂貴等缺陷。

性能越高的GPU功耗越高,體積越大,價(jià)格也越高昂,這使得一些小型設(shè)備和移動(dòng)設(shè)備無法使用。

NPU將在AI PC落地生花

網(wǎng)絡(luò)處理單元(NPU)能夠基于網(wǎng)絡(luò)運(yùn)算的特性,借助軟件或硬件編程,實(shí)現(xiàn)多樣化的網(wǎng)絡(luò)功能。

相較于傳統(tǒng)的中央處理器(CPU)和圖形處理器(GPU),NPU在執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)時(shí)展現(xiàn)出更高的效率和更低的功耗。

現(xiàn)場(chǎng)可編程門陣列FPGA)相比,NPU在成本方面更具優(yōu)勢(shì)。

雖然FPGA在靈活性和可編程性方面同樣出色,但主流的FPGA芯片制程節(jié)點(diǎn)通常在14納米至45納米之間;

而NPU的制程節(jié)點(diǎn)往往低于10納米,因此更適合應(yīng)用于小型、低功耗的消費(fèi)級(jí)設(shè)備,如個(gè)人電腦和手機(jī)等。

在軟件層面,NPU具備與主流軟件的高度兼容性。通過標(biāo)準(zhǔn)化的接口,如OpenCL、CUDA、OpenVX等,NPU能夠輕松與各種人工智能框架進(jìn)行交互,并順利集成到不同的軟件環(huán)境中。

這使得開發(fā)者在模型開發(fā)和部署方面更加便捷,同時(shí)支持多種編程語言和框架,進(jìn)一步降低了開發(fā)門檻。

綜上所述,NPU的高效能、低功耗、易于編程以及廣泛的軟件兼容性,使其成為人工智能應(yīng)用中不可或缺的關(guān)鍵組件。

趨勢(shì)看好,各大廠紛紛推出相關(guān)產(chǎn)品

英特爾近期發(fā)布了第14代酷睿Ultra移動(dòng)處理器,該處理器內(nèi)置了神經(jīng)網(wǎng)絡(luò)處理單元(NPU)。

據(jù)英特爾官方透露,預(yù)計(jì)至2024年,將有超過230款機(jī)型搭載這款酷睿Ultra處理器。

另一方面,蘋果計(jì)劃在2024年發(fā)布搭載M3處理器的MacBook。

據(jù)該公司透露,M3處理器的NPU性能相較于前代產(chǎn)品M1提升了60%。

此外,AMD亦將在2024年初正式推出其首款內(nèi)置獨(dú)立NPU的銳龍8040處理器。

AMD表示,該處理器的加入使得大語言模型性能提升了40%。

值得一提的是,AMD于2023年12月率先發(fā)布了銳龍8040系列處理器。這一系列處理器的核心變化之一便是新增了AI計(jì)算單元。

隨后,英特爾亦發(fā)布了其新一代酷睿Ultra移動(dòng)處理器。

這款處理器是英特爾40年來的首款內(nèi)置NPU的產(chǎn)品,旨在在PC上提供高效能的AI加速和本地推理體驗(yàn)。

此舉被業(yè)界視為英特爾客戶端處理器路線圖的重大轉(zhuǎn)折點(diǎn)。

英特爾將NPU、CPU和GPU共同視為AI PC的三個(gè)核心算力引擎。

據(jù)公司預(yù)測(cè),至2024年,將有超過230款機(jī)型搭載酷睿Ultra處理器。

此外,微軟計(jì)劃在Windows 12中為AI PC設(shè)定最低門檻,要求至少具備40TOPS的算力和16GB的內(nèi)存。

因此,PC芯片算力達(dá)到40TOPS門檻將成為行業(yè)的主要目標(biāo)。

[算力融合]只是美好的理想

在GPU領(lǐng)域,英偉達(dá)RTX系列、AMD RX7000系列以及英特爾ARC系列獨(dú)立顯卡均內(nèi)置獨(dú)立的AI計(jì)算單元。

然而,英偉達(dá)并不生產(chǎn)消費(fèi)級(jí)PC CPU,因此其顯卡AI功能更新主要圍繞顯卡本身,如AI視頻超分、AI色彩強(qiáng)化、AI音頻降噪及AI語音聊天等,似乎主張[AI PC僅需顯卡算力]。

英特爾ARC獨(dú)顯雖有XMX矩陣計(jì)算單元,但新一代集成于CPU的ARC核顯已取消此設(shè)計(jì),使其MTL架構(gòu)CPU僅依賴內(nèi)置NPU作為獨(dú)立AI計(jì)算單元。

即便搭配ARC獨(dú)顯,亦無法實(shí)現(xiàn)核顯與獨(dú)顯AI算力的[疊加]。

AMD在CPU中采用源自其企業(yè)級(jí)計(jì)算卡的XDNA成熟架構(gòu)作為NPU單元,理論上具有軟件適配優(yōu)勢(shì)。

然而,在RDNA 3獨(dú)顯架構(gòu)中,AMD似乎采用了不同的AI單元設(shè)計(jì),導(dǎo)致尚未實(shí)現(xiàn)基于AI代碼的游戲畫面超分功能。

此前許多顯卡AI用例主要依賴GPU本身的浮點(diǎn)算力,相較于僅使用顯卡內(nèi)置AI單元的處理方式,功耗更高。

理論上,CPU、GPU和NPU均可參與AI運(yùn)算,并根據(jù)代碼類型和任務(wù)負(fù)載實(shí)現(xiàn)自動(dòng)分配的[異構(gòu)協(xié)同]設(shè)計(jì),如高通即將上市的驍龍X Elite系列所示。

然而,這種協(xié)同運(yùn)算的實(shí)現(xiàn)受到當(dāng)前硬件方案[各自為戰(zhàn)]的產(chǎn)品構(gòu)成限制。

英特爾和AMD未來可能通過架構(gòu)修正解決[算力不統(tǒng)一]問題,而英偉達(dá)雖無消費(fèi)級(jí)x86 CPU產(chǎn)品線,但仍有可能通過ARM CPU進(jìn)入Windows on ARM生態(tài)。

結(jié)尾:

根據(jù)現(xiàn)有證據(jù),NPU因其對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算的獨(dú)特優(yōu)化,在端側(cè)和邊緣側(cè)處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時(shí)展現(xiàn)出卓越的效率與節(jié)能特性。

這一現(xiàn)象正推動(dòng)AI手機(jī)、AI PC及端側(cè)AI市場(chǎng)的快速發(fā)展,預(yù)示著NPU的大規(guī)模商用時(shí)代即將到來。

部分資料參考:

三易生活:《CPU、GPU、NPU,究竟誰才是[AI PC]的主角?》,中國電子報(bào):《AI PC元年將至,NPU到底怎么用?》,國際電子商情:《一文看懂神經(jīng)網(wǎng)絡(luò)處理器(NPU):AI算力加速的新方向》,DeepTech深科技:《GPU之后,NPU再成標(biāo)配,手機(jī)、PC如何承載AI大模型?》,半導(dǎo)體行業(yè)觀察:《為何都盯上了NPU?》,科技行者:《為什么AI PC需要顆強(qiáng)大的NPU?》,與非網(wǎng):《與GPU雙向奔赴,NPU即將開啟大規(guī)模商用時(shí)代》,電子發(fā)燒友網(wǎng):《生成式AI加速向終端側(cè)演進(jìn),NPU、異構(gòu)計(jì)算提供強(qiáng)大算力支持》

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATMEGA88PA-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP32, 7 X 7 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ABA, TQFP-32

ECAD模型

下載ECAD模型
$1.5 查看
XC7Z010-1CLG400C 1 AMD Xilinx Multifunction Peripheral, CMOS, PBGA400, BGA-400

ECAD模型

下載ECAD模型
$62.79 查看
ATXMEGA256A3U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64
$7.71 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

AI芯天下是智能芯片行業(yè)垂直自媒體。采用媒體+行業(yè)的模式,堅(jiān)持從芯出發(fā),用心服務(wù)的理念,致力于豐富的網(wǎng)絡(luò)基礎(chǔ)資源建設(shè)。官網(wǎng):http://www.world2078.com/ 公眾號(hào):World_2078

產(chǎn)業(yè)丨玻璃基板越發(fā)強(qiáng)勢(shì),AI時(shí)代下或?qū)⒂兴鳛?>
				</a>
							</li>
						<li id= 深度丨谷歌發(fā)布自研量子芯片Willow,試圖解決量子計(jì)算的糾錯(cuò)問題 查看更多