AI應(yīng)用復(fù)雜性的提升,帶來了終端計(jì)算需求的指數(shù)級(jí)增長(zhǎng),芯片開發(fā)設(shè)計(jì)面臨全新挑戰(zhàn)。系統(tǒng)級(jí)芯片 (SoC) 設(shè)計(jì)人員、OEM 廠商和軟件開發(fā)者需要更好的靈活性和更多的選擇,來確保各類消費(fèi)設(shè)備都能夠經(jīng)受未來考驗(yàn)。
對(duì)于芯片IP提供商來說,挑戰(zhàn)也是前所未有的:既需要不斷推動(dòng)技術(shù)邊界,確保IP核能夠支持最新的計(jì)算需求;同時(shí),還要為合作伙伴提供必要的工具和支持,幫助他們快速開發(fā)出創(chuàng)新產(chǎn)品,滿足市場(chǎng)對(duì)智能設(shè)備日益增長(zhǎng)的期望。
筑基端側(cè)AI,Arm重新定義“智能性”
Arm近期推出了最新的計(jì)算平臺(tái)—— Arm終端計(jì)算子系統(tǒng) (Arm CSS for Client),標(biāo)志著Arm在終端領(lǐng)域的一次重大創(chuàng)新。這是Arm首次在終端領(lǐng)域?yàn)?a class="article-link" target="_blank" href="/baike/1552575.html">CPU和GPU提供物理實(shí)現(xiàn)。此外,還有最新的 CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元 (SMMU),以及同步推出的 Arm Kleidi 軟件庫(kù)。終端CSS旨在簡(jiǎn)化基于Arm架構(gòu)解決方案的構(gòu)建,確保解決方案的可靠性,同時(shí)Kleidi庫(kù)則能幫助軟件開發(fā)者無(wú)縫獲得Arm CPU的最佳性能。
值得注意的是,Arm終端CSS針對(duì)最新的3納米工藝節(jié)點(diǎn)進(jìn)行了優(yōu)化,并結(jié)合了Armv9架構(gòu)的AI優(yōu)勢(shì)。Armv9架構(gòu)自2021年推出以來,專注于提升性能和AI能力,在矢量加速、機(jī)器學(xué)習(xí)(ML)等方面增強(qiáng)了計(jì)算能力,同時(shí)提高了系統(tǒng)的安全性和穩(wěn)健性,并特別增加了面向AI的功能。在Armv9.2成功的基礎(chǔ)上,Arm 終端CSS通過全新的Cortex-X CPU和Immortalis GPU,提供了全球領(lǐng)先的高性能和以效率為核心的解決方案。
Arm 終端事業(yè)部智能手機(jī)市場(chǎng)高級(jí)總監(jiān) Steve Raphael強(qiáng)調(diào),智能手機(jī)一直引領(lǐng)著開發(fā)者進(jìn)行創(chuàng)新并突破平臺(tái)限制,游戲和成像技術(shù)驅(qū)動(dòng)著對(duì)更高效性能的要求,同時(shí)還要滿足新的消費(fèi)者用例需求。AI 正向著另一個(gè)方向突破計(jì)算的極限,并創(chuàng)造出大量新的應(yīng)用。Arm致力于提供完整的解決方案,實(shí)現(xiàn)更高的CPU和GPU性能,并投資于未來數(shù)代的 Arm終端CSS。
“為此,我們與領(lǐng)先代工廠密切合作,并確保我們的平臺(tái)與前沿工藝節(jié)點(diǎn)緊密結(jié)合。Armv9 將持續(xù)演進(jìn),增加更多的AI和安全功能,以確保我們能夠面向未來持續(xù)創(chuàng)新”, Steve Raphael補(bǔ)充。
Arm終端CSS為消費(fèi)電子AI帶來跨越式提升
智能手機(jī)領(lǐng)域,采用Armv9 CPU的高端AI智能手機(jī)正成為市場(chǎng)新寵。比如vivo X100系列、三星Galaxy S24和Google Pixel 8等旗艦手機(jī)。而隨著AI應(yīng)用越來越復(fù)雜,計(jì)算需求不斷上升,Arm推出的最新Armv9.2 CPU集群,提供了更強(qiáng)大的性能和更高的能效。這些技術(shù)進(jìn)步不僅適用于高端智能手機(jī),還能擴(kuò)展到AI PC、主流手機(jī)、XR設(shè)備和可穿戴設(shè)備等各類消費(fèi)電子產(chǎn)品,也顯示了Arm推動(dòng)AI普及的決心。
Armv9.2 CPU系列新增了性能強(qiáng)勁的Cortex-X925 CPU和持續(xù)提供高效能的Cortex-A725 CPU,同時(shí)更新了Cortex-A520 CPU,以更好地滿足低強(qiáng)度工作負(fù)載的能效需求。此外,DynamIQ Shared Unit (DSU-120)的更新,進(jìn)一步降低了功耗并縮小了占用空間,這些技術(shù)都被集成到了新的Arm終端CSS中。這些都表明Arm在提升智能手機(jī)及其他設(shè)備的AI處理能力方面,正不斷取得突破。
其中,Cortex-X925(內(nèi)部代號(hào)為Blackhawk),是Arm迄今為止同比性能提升最為顯著的Cortex-X系列產(chǎn)品。它不僅在單線程性能上實(shí)現(xiàn)了36%的躍升,AI性能也提高了46%,為高端智能手機(jī)和其他消費(fèi)電子設(shè)備帶來了前所未有的計(jì)算能力。
而Cortex-A725則專為需要持續(xù)高性能的關(guān)鍵AI和游戲場(chǎng)景進(jìn)行了優(yōu)化。與前代Cortex-A720相比,Cortex-A725實(shí)現(xiàn)了35%的性能效率提升和25%的能效提升。
同時(shí),Cortex-A520也針對(duì)Arm終端CSS進(jìn)行了更新,提供了比TCS23中的Cortex-A520更高的能效,效率提升了15%。
通過上述更新,Arm能夠?yàn)椴煌?xì)分市場(chǎng)提供更加優(yōu)化的CPU解決方案。當(dāng)然,這還離不開針對(duì)新一代用例和消費(fèi)電子設(shè)備體驗(yàn)進(jìn)行了強(qiáng)化的DSU-120。得益于此,典型工作負(fù)載的功耗顯著降低 50%,并且整個(gè)CPU集群的緩存未命中功耗降低60%,從而減少漏電并延長(zhǎng)設(shè)備的電池壽命。
Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Steve Hopper指出,終端CSS是Arm面向安卓的最快速的計(jì)算平臺(tái),與TCS23平臺(tái)相比,它在關(guān)鍵基準(zhǔn)和一般計(jì)算用例方面取得了顯著改進(jìn)。其中包括:
- 通過 Geekbench 6 單核分?jǐn)?shù)測(cè)量可知,得益于新的 Cortex-X925,峰值性能提高 36%;
- 在前十大應(yīng)用中,五款應(yīng)用的平均啟動(dòng)時(shí)間加快了 33%,不僅提高了生產(chǎn)力,也帶來了流暢的移動(dòng)體驗(yàn);
- 通過 Speedometer 2.1 瀏覽器基準(zhǔn)測(cè)量時(shí),網(wǎng)頁(yè)瀏覽速度加快了 60%;
- 在包括光線追蹤和可變速率著色 (VRS) 基準(zhǔn)等七項(xiàng)圖形基準(zhǔn)中,峰值圖形性能平均提高 30%。
不僅如此,Arm 終端 CSS 也在持續(xù)突破移動(dòng)設(shè)備的邊界。為此,Arm設(shè)計(jì)了從 IP 到軟件的整個(gè)平臺(tái),以提供出色能效,從而實(shí)現(xiàn)更久、更豐富的移動(dòng)體驗(yàn)。
此外,3nm成為最重要的突破和亮點(diǎn)之一。雖然3nm將實(shí)現(xiàn)性能和效率的提升,但挑戰(zhàn)也隨之而來。具體表現(xiàn)在:軟IP方面,越來越復(fù)雜的微架構(gòu)增加了在3nm工藝上優(yōu)化PPA的難度;其次,在3nm工藝上管理電壓調(diào)節(jié)和 di/dt 緩解變得具有挑戰(zhàn)性;第三,為了真正針對(duì)3nm進(jìn)行優(yōu)化,軟IP必須考慮目標(biāo)工藝節(jié)點(diǎn)以優(yōu)化PPA。
為應(yīng)對(duì)這些挑戰(zhàn),Arm推出開創(chuàng)性的3nm物理 IP 解決方案與終端CSS RTL同步設(shè)計(jì),以幫助合作伙伴實(shí)現(xiàn)高性能。
Steve Hopper表示,Arm終端 CSS將被應(yīng)用于3nm工藝上的第一代旗艦高端安卓芯片組。要充分釋放先進(jìn)3nm工藝節(jié)點(diǎn)的潛力,需要在計(jì)算平臺(tái)的不同層次上進(jìn)行創(chuàng)新。
為此,終端CSS需要優(yōu)先考慮四個(gè)關(guān)鍵領(lǐng)域:第一,突破性能邊界以處理要求苛刻的安卓實(shí)際工作負(fù)載;第二,針對(duì)生成式AI以及更廣泛的AI/ML和計(jì)算機(jī)視覺工作負(fù)載提高性能;第三,持續(xù)專注于實(shí)現(xiàn)兩位數(shù)的系統(tǒng)能效提升;第四,擴(kuò)展平臺(tái)以獲得更高的性能點(diǎn),滿足新一代 AI PC 設(shè)備的需求(包括筆記本電腦和平板電腦)。
“隨著向3nm工藝的轉(zhuǎn)變,預(yù)計(jì)合作伙伴將推動(dòng)Cortex-X CPU的頻率超過3.6GHz——這是市場(chǎng)需求推動(dòng)的重大飛躍”, Steve Hopper介紹,“Arm的物理IP解決方案一直與IP解決方案同步發(fā)展。在過去的幾代產(chǎn)品中,Arm為合作伙伴提供了物理IP交付成果,主要包括:針對(duì)特定處理器和工藝節(jié)點(diǎn)進(jìn)行優(yōu)化的單元庫(kù)和快速緩存實(shí)例、處理器優(yōu)化包 (POP)等。憑借終端 CSS,Arm正在將物理實(shí)現(xiàn)提升到新高度,通過與合作伙伴共同開發(fā)一系列物理IP解決方案,充分發(fā)揮3nm的潛力?!?/p>
大模型的端側(cè)應(yīng)用也將受益于終端CSS的改進(jìn),當(dāng)運(yùn)行 Llama 3 LLM 和 Phi-3 LLM時(shí),該平臺(tái)可將詞元 (Token) 首次響應(yīng)時(shí)間分別縮短 42% 以及 46%。這意味著移動(dòng)端LLM的性能將進(jìn)一步得到提升,端側(cè)生成式AI的體驗(yàn)也將得到持續(xù)優(yōu)化。
CPU集群出擊,加速AI在移動(dòng)設(shè)備發(fā)展
自2020年推出Cortex-X系列以來,Arm專注于提升單線程性能,并在過去四代產(chǎn)品迭代中實(shí)現(xiàn)了這一目標(biāo)。今年,Arm以更大膽的創(chuàng)新理念,綜合考慮IPC、頻率、編譯器、OS、封裝等因素,革新了Cortex-X CPU設(shè)計(jì),實(shí)現(xiàn)了性能、功耗和面積(PPA)的領(lǐng)先表現(xiàn),使其不僅適用于當(dāng)前這一代產(chǎn)品,也能夠適應(yīng)未來數(shù)年的終端設(shè)備與應(yīng)用的發(fā)展。
首先,Cortex-X925的推出,標(biāo)志著Arm CPU性能的一次巨大飛躍,實(shí)現(xiàn)了36%的單線程性能提升和46%的AI性能提升,是Cortex-X有史以來最大幅度的IPC同比提升。而Cortex-A725則實(shí)現(xiàn)了性能與效率的最佳平衡,性能效率提升了35%。同時(shí),Cortex-A520針對(duì)3nm工藝節(jié)點(diǎn)進(jìn)行了優(yōu)化,能耗節(jié)省了15%。此外,DSU-120也引入了新的功耗模式,降低了典型工作負(fù)載的功耗。
“需要強(qiáng)調(diào)的是,現(xiàn)實(shí)環(huán)境中的用例相當(dāng)復(fù)雜,涉及多個(gè) CPU 的相互作用,而我們致力于推動(dòng)包括軟件在內(nèi)的全方位優(yōu)化,實(shí)現(xiàn)了應(yīng)用啟動(dòng)、網(wǎng)頁(yè)瀏覽、游戲、AI和輕量級(jí)媒體處理等用例的顯著性能提升,在大約40個(gè)指標(biāo)上平均實(shí)現(xiàn)了30%的提升”,Arm 終端事業(yè)部高級(jí)產(chǎn)品經(jīng)理Manish Pandey表示,“我們致力于交付一個(gè)全面的 CPU 集群,不僅要?jiǎng)偃涡碌挠?jì)算密集型工作負(fù)載,還要能持續(xù)提供出色的性能和用戶體驗(yàn)?!?/p>
Manish Pandey強(qiáng)調(diào),集群解決方案是多維度的:第一個(gè)維度是“性能”, 得益于 Cortex-X925 在微架構(gòu)上的重大突破,Arm實(shí)現(xiàn)了Cortex-X系列有史以來最大幅度的性能提升,從而可以滿足AI等實(shí)際用例的需求。以Cortex-X925為基礎(chǔ),在先進(jìn)工藝節(jié)點(diǎn)上實(shí)現(xiàn)3.8GHz,將使得下一代設(shè)備的Geekbench得分提高30%以上。對(duì)緩存大小、先進(jìn)的功耗與熱管理技術(shù),以及更新運(yùn)行時(shí) (Runtime) 選擇上的進(jìn)一步投入,將共同推動(dòng)設(shè)備性能的提升,其性能將比當(dāng)前的高端設(shè)備高出36%。他補(bǔ)充,Cortex-X925 并不只是一個(gè)新的 CPU,而是今年擁有最卓越IPC性能的 CPU。
第二個(gè)維度是“效率”,而Cortex-A700系列是關(guān)鍵組成部分,至今已經(jīng)發(fā)展了14代。該系列的研發(fā)團(tuán)隊(duì)過去曾開發(fā)了Cortex-A9(大約 20 年前的首個(gè)亂序執(zhí)行CPU)和 Cortex-A73(迄今出貨量最高的亂序執(zhí)行CPU)。
基于這個(gè)設(shè)計(jì)理念,Arm推出了Cortex-A725,并將性能效率推向了新高度。 Cortex-A725將專注于滿足AI和游戲體驗(yàn)的新一代用例,并針對(duì)3nm工藝節(jié)點(diǎn)進(jìn)行了特別優(yōu)化,以實(shí)現(xiàn)性能和能效的最佳平衡。與前一代相比,Cortex-A725的能效提升了25%,通過改進(jìn)預(yù)取器和增大L2緩存,有效減少了對(duì)L3和DDR內(nèi)存的帶寬需求,為大型語(yǔ)言模型(LM)提供了更多的性能余量。
另一個(gè)效率方面的重要產(chǎn)品Cortex-A520,雖然微架構(gòu)更新頻率不高,但針對(duì)3nm工藝進(jìn)行了重要更新,通過與ASIC/芯片團(tuán)隊(duì)的緊密合作,確保了在保持微架構(gòu)穩(wěn)定的同時(shí),為合作伙伴提供了針對(duì)3nm工藝的高效解決方案。
DSU代表了集群解決方案的第三個(gè)維度,它類似于Patterson和Hennessy在《計(jì)算機(jī)體系結(jié)構(gòu)》中所述的系統(tǒng)級(jí)整合概念,將Arm的所有IP整合在一起,確保它們能夠高效協(xié)同工作,并且具備可擴(kuò)展性,以適應(yīng)不同的市場(chǎng)和應(yīng)用需求。
DSU-120是今年的重點(diǎn)更新,它針對(duì)多種新用例進(jìn)行了優(yōu)化,特別是在性能、功耗和面積(PPA)以及功耗方面。為了進(jìn)一步提升能效,DSU引入了中高切片斷電模式和面向RAM的Quick Nap(QNap)模式,后者提供了一種介于完全運(yùn)作和保留狀態(tài)之間的能效優(yōu)化選項(xiàng)。這些功能使Arm的合作伙伴能夠在不犧牲性能的情況下顯著降低能耗。DSU的設(shè)計(jì)允許根據(jù)用例的需求靈活調(diào)整規(guī)模,同時(shí)硬件自動(dòng)化的引入有助于DSU中軟件的優(yōu)化。
通過CPU集群的優(yōu)化,與前一代的Cortex-X4 CPU集群相比,新一代CPU集群在AI性能上提升了46%,提供了更快的響應(yīng)速度和持續(xù)的高吞吐量。與TCS23 CPU集群相比,用戶體驗(yàn)指標(biāo)提升了30%,包括加速應(yīng)用訪問、網(wǎng)頁(yè)瀏覽、提升游戲體驗(yàn)、延長(zhǎng)電池壽命等。
“Arm在CPU設(shè)計(jì)上關(guān)注各個(gè)維度,包括性能、能效、軟件兼容等。當(dāng)我們以一種更為大膽的方式設(shè)計(jì) Arm Cortex-X925 時(shí),就已經(jīng)考慮到如何從多維度入手,發(fā)揮出系統(tǒng)的最大性能。這絕不是單一因素的考量。我們專注于每時(shí)鐘周期指令數(shù) (IPC),以及物理解決方案、延遲系統(tǒng)、操作系統(tǒng)、編譯器和封裝等多個(gè)方面的投入。Arm 將一如既往地持續(xù)投入,以優(yōu)化并解決此類多維度問題?!保琈anish Pandey補(bǔ)充。
新GPU釋放消費(fèi)電子游戲和AI創(chuàng)新潛能
去年,Arm推出了第五代GPU架構(gòu)及一系列新的GPU,包括 Arm Immortalis-G720 GPU。 MediaTek的天璣9300 SoC平臺(tái)便采用了該GPU,之后,vivo和OPPO的旗艦智能手機(jī)都先后采用了該芯片。
最新推出的第二代基于Arm第五代GPU 架構(gòu)構(gòu)建的GPU 產(chǎn)品,成為 Arm 終端計(jì)算子系統(tǒng) (CSS) 的重要組件。其中包括新的Immortalis-G925 GPU、Mali-G725 GPU和Arm Mali-G625 GPU,適用于從旗艦智能手機(jī)、高端手機(jī),到智能手表、入門級(jí)移動(dòng)設(shè)備等各類消費(fèi)電子設(shè)備。這些 GPU 產(chǎn)品的設(shè)計(jì)重心是:作為手機(jī)游戲持續(xù)演進(jìn)的一部分,實(shí)現(xiàn)沉浸式視覺體驗(yàn);在主流應(yīng)用中加速實(shí)現(xiàn)AI體驗(yàn)。
手游內(nèi)容趨勢(shì)的演變是 Arm 持續(xù)關(guān)注的重點(diǎn),用以確保GPU能滿足開發(fā)者和生態(tài)系統(tǒng)合作伙伴的需求。去年推出的 Immortalis-G720 在多數(shù)的圖形基準(zhǔn)測(cè)試中都以其峰值性能(每秒幀數(shù), fps)和更長(zhǎng)游戲時(shí)間的持續(xù)性擊敗對(duì)手。
而最新的Immortalis-G925性能 (fps) 比Immortalis-G720提高了37%。此外,在提供與 Immortalis-G720 相當(dāng)?shù)挠螒蛐阅軙r(shí),Immortalis-G925的功耗降低了30%。在關(guān)鍵的手機(jī)游戲領(lǐng)域,與Immortalis-G720相比,Immortalis-G925的性能平均提升了46%。
為應(yīng)對(duì)筆記本電腦、Chromebook 和游戲手機(jī)等各類消費(fèi)電子設(shè)備市場(chǎng)日益增長(zhǎng)的性能需求,Immortalis-G925 所支持的著色器核心數(shù)量增加了 50%,達(dá)到 24 個(gè)核心的最大配置,而上一代最多只有 16 個(gè)。
此外,Immortalis-G925具備硬件光線追蹤,可配置 10 個(gè)以上的核心,適用于旗艦智能手機(jī)等高性能消費(fèi)技術(shù)市場(chǎng)。Mali-G725 可在6~9個(gè)核心之間擴(kuò)展,主要針對(duì)高端手機(jī)市場(chǎng)。此外,它還能提供與 Immortalis-G925 相同的 API 支持,同時(shí)為 Immortalis-G925 目標(biāo)范疇以外的稍低級(jí)別設(shè)備提供引人入勝的沉浸式游戲體驗(yàn)。Mali-G625 可在一至五個(gè)核心之間擴(kuò)展,適用于智能手表和入門級(jí)移動(dòng)設(shè)備。
針對(duì)手機(jī)游戲日益精細(xì)的畫面,復(fù)雜的片段著色技術(shù)被用來創(chuàng)造出更加逼真的物體和角色紋理效果,同時(shí)實(shí)現(xiàn)諸如光暈、模糊和高質(zhì)量的基于物理著色等效果。
據(jù)安謀科技 (Arm China) 市場(chǎng)總監(jiān)王剛介紹,自 Arm Immortalis-G715 引入光線追蹤以來,這一技術(shù)已滲透到內(nèi)容領(lǐng)域,幫助創(chuàng)建更逼真的陰影、反射和高級(jí)照明效果。
除了聚焦于提升GPU的性能和能效,Arm與游戲引擎廠商Unity等生態(tài)系統(tǒng)合作伙伴展開密切合作,以充分發(fā)揮出GPU的性能。
“Arm GPU 的定位是為合作伙伴面向廣泛的終端設(shè)備市場(chǎng)賦能極致的視覺體驗(yàn),通過 Immortalis-G925、Mali-G725 和 Mali-G625,Arm的目標(biāo)是覆蓋從旗艦到入門等不同級(jí)別的廣泛消費(fèi)電子設(shè)備”,王剛談到,“我們看到越來越多的消費(fèi)者與合作伙伴要求更加沉浸式的手游和AI體驗(yàn),最新的Arm GPU就能夠滿足這些需求,提供更好的游戲和AI性能。這意味著,全球數(shù)百萬(wàn)開發(fā)者和數(shù)十億用戶將與基于Arm架構(gòu)的設(shè)備進(jìn)行交互,將獲得更快、更沉浸式、更智能的視覺體驗(yàn)。”
在各類軟件平臺(tái)上解鎖Arm CPU的AI性能
Arm Kleidi是一項(xiàng)廣泛的軟件和軟件社區(qū)參與計(jì)劃,旨在加速AI發(fā)展。其中的第一個(gè)舉措是推出面向熱門AI框架的Arm Kleidi軟件庫(kù)。這使開發(fā)者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球從云端到邊緣側(cè)的大多數(shù) AI 推理工作負(fù)載都在這些 Arm CPU 上運(yùn)行。開發(fā)者可以借助 Arm 超過20年的架構(gòu)創(chuàng)新,從 Armv7架構(gòu)首次引入高級(jí)單指令多數(shù)據(jù) (SIMD) 擴(kuò)展以支持機(jī)器學(xué)習(xí) (ML) 工作負(fù)載,到如今的Armv9架構(gòu)在Arm CPU上囊括了加速和保護(hù)高級(jí)生成式 AI 工作負(fù)載的功能,這些創(chuàng)新持續(xù)推動(dòng)著AI能力和性能的提升。
Kleidi軟件庫(kù)包含面向AI工作負(fù)載的KleidiAI和面向運(yùn)行于Arm CPU上出色的計(jì)算機(jī)視覺工作負(fù)載的 KleidiCV。該軟件庫(kù)可以被直接嵌入到熱門的AI框架中,開發(fā)者無(wú)需進(jìn)行任何操作。如此一來,開發(fā)者可以輕松地啟用Arm CPU的AI 功能,從而快速構(gòu)建AI應(yīng)用,并在更廣泛的設(shè)備上實(shí)現(xiàn)出色性能。
據(jù)安謀科技 (Arm China) 開發(fā)者生態(tài)高級(jí)經(jīng)理李陳魯介紹,KleidiAI是由一系列高度優(yōu)化的 AI 內(nèi)核組成,可在生成式 AI 等用例中實(shí)現(xiàn)高性能,它并不會(huì)給開發(fā)者額外增加工作量,而是直接與領(lǐng)先的AI框架合作,包括 MediaPipe(通過 XNNPACK)、LLAMA.cpp、PyTorch(通過 ExecuTorch)和 TensorFlow Lite(通過 XNNPACK),以集成 KleidiAI。這不僅加快了開發(fā)流程,并釋放了AI性能,為開發(fā)者提供了默認(rèn)的高性能,使他們能夠順利地打造出色的AI體驗(yàn)。KleidiAI 還提供了前瞻的兼容性,隨著更多技術(shù)的推出,將確保開發(fā)者能夠充分利用未來AI加速機(jī)會(huì)。
KleidiAI 的集成已經(jīng)為生成式 AI 工作負(fù)載帶來了顯著的性能提升。在新的Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3 和微軟 Phi-3 大語(yǔ)言模型 (LLM) 的詞元 (Token) 首次響應(yīng)時(shí)間加快了190%。
此外,WebGPU可以取代以前的WebGL等舊的API,通過網(wǎng)頁(yè)端就能訪問硬件的3D渲染能力,其典型用例包括開發(fā)網(wǎng)頁(yè)游戲等,以及如今很多移動(dòng)端應(yīng)用程序內(nèi)部都有網(wǎng)頁(yè)元素,比如小程序等。
談及Arm對(duì)WebGPU的貢獻(xiàn),李陳魯談到,具體是擴(kuò)展了它的實(shí)現(xiàn)。Arm并沒有對(duì) WebGPU API的規(guī)范做任何修改,但在最后實(shí)現(xiàn)的部分加入了額外的信息和處理,從而讓它在移動(dòng)端的Arm Immortalis以及Mali GPU上運(yùn)行時(shí),能夠充分地做到并行化,即幾何處理和像素繪制的并行化,從而實(shí)現(xiàn)性能的巨大提升。
他補(bǔ)充,Arm Kleidi 的推出突顯了Arm作為端側(cè)生成式 AI 計(jì)算平臺(tái)的領(lǐng)先地位。它使開發(fā)者無(wú)需學(xué)習(xí)額外的工具和技能,就能夠在非常廣泛的硬件中獲得 Arm CPU 的出色AI性能。隨著Arm不斷創(chuàng)新,持續(xù)為新一代 AI 打造前沿架構(gòu),開發(fā)者未來將能夠獲得更強(qiáng)大、更先進(jìn)的AI功能。對(duì)于最終用戶來說,這意味著更快速、更智能、更具交互性、更沉浸式、更安全的出色 AI 體驗(yàn)。
Arm Kleidi 的推出只是一個(gè)開端,Arm未來還計(jì)劃推出更多軟件庫(kù)、計(jì)算內(nèi)核和引擎集成,讓軟件開發(fā)者持續(xù)在 Arm 平臺(tái)上構(gòu)建 AI 的未來。