洶涌而至的數(shù)字化大潮中,核心底座無疑是芯片。以我們觸手可及的智能手機為例,性能、智能化水平、視覺體驗等,近些年都有了突飛猛進的發(fā)展。細想一下,這些其實都離不開手機芯片計算能力的不斷提升。
Arm架構憑借高性能、高能效等優(yōu)勢已在手機生態(tài)取得全面成功,不過,放眼未來計算的復雜需求,Arm一直在不斷突破計算平臺的能力極限。5月底,Arm 2023全面計算解決方案(TCS23)正式推出,可以說,這是Arm迄今為止針對智能手機推出的性能最優(yōu)異的移動計算平臺。包括了全新旗艦級Arm Immortalis GPU,可帶來絕佳視覺體驗;全新的Armv9 CPU集群,延續(xù)了在AI方面的領先性能;以及可為數(shù)百萬Arm開發(fā)者提供的更易訪問軟件的全新增強技術。
在日前舉辦的Arm技術媒體分享日上,Arm內(nèi)部多位技術專家,對TCS23進行了深度解讀,包括在CPU、GPU、安全及軟件方面的最新技術動態(tài),以及Arm在終端設備領域的應用創(chuàng)新和市場洞見。
Arm全面計算戰(zhàn)略最新進展?
縱觀整個生態(tài)系統(tǒng),能夠提供全面解決方案的IP供應商并不多見,本身難度也較高。Arm的全面計算戰(zhàn)略究竟是什么?為什么推崇全面計算解決方案的開發(fā)方式?簡單理解,它是將一整套針對特定工作負載設計和優(yōu)化的IP作為一個完整系統(tǒng),使得這些關鍵IP能夠無縫地協(xié)同工作,從而大幅降低了SoC設計的復雜性,減少了工程成本和資源消耗,縮短了產(chǎn)品上市時間。
2021年,Arm 全面計算解決方案首次發(fā)布。借助該平臺解決方案,SoC設計能夠更輕松應對計算子系統(tǒng)構建和配置過程中的諸多挑戰(zhàn),包括開發(fā)用于總線互聯(lián)、系統(tǒng)級緩存 (SLC) 和內(nèi)存管理單元 (MMU) 的第三方系統(tǒng) IP,以及將所有組件集成到CPU和GPU集群等各個環(huán)節(jié)中遇到的問題。
去年推出的Arm 2022全面計算解決方案(TCS22),就為一系列工作負載提供了更高的計算性能和能效,并在多個設備中實現(xiàn)了全面計算戰(zhàn)略的所有要素,例如高通第二代驍龍8移動平臺、MediaTek天璣9200移動芯片組。
全新發(fā)布的TCS23,可以說是針對移動計算的優(yōu)選計算平臺,提供64位計算性能支持,包括了尖端CPU和GPU技術,能夠讓游戲開發(fā)者以及人工智能應用開發(fā)者實現(xiàn)沉浸式體驗的打造,此外,還有在軟件、內(nèi)存安全等方面的優(yōu)化。
Arm 產(chǎn)品營銷副總裁Ian Smythe強調(diào),“我們所關注的不止在下一代設備,還著眼于未來。我們對CPU、GPU產(chǎn)品路線圖的承諾更勝以往,在接下來的幾年里,我們將在包括 Krake GPU 和 Blackhawk CPU 等關鍵IP上加大投入,以滿足合作伙伴對于計算和圖形性能的要求?!?/p>
Arm終端事業(yè)部產(chǎn)品管理高級總監(jiān)Kinjal Dave指出,移動SoC設計變得越來越復雜,主要表現(xiàn)在以下四個方面:第一是IP本身越來越復雜;第二是IP可能需要跨領域、跨系統(tǒng),比如MTE技術;第三是越來越多樣的終端使用場景在出現(xiàn);第四是芯片設計工作本身,在設計選擇以及平衡方面的取舍難度在提高。
提供系統(tǒng)的參考設計,可以幫助合作伙伴更好地應對這些挑戰(zhàn)。TCS23集成了一系列新推出的Arm IP產(chǎn)品,包括CPU、GPU和其他系統(tǒng)IP,主要有:基于全新第五代 GPU 架構而構建的Immortalis-G720、Mali-G720 和 Mali-G620;Armv9.2計算集群,包含Cortex-X4、Cortex-A720和Cortex-A520 CPU,以及DSU-120。通過這些IP組件的協(xié)同,TCS23實現(xiàn)了兩位數(shù)的性能、效率和功耗提升。
除了新的IP之外,TCS23 還提供了一系列專為全新一代安卓操作系統(tǒng)量身定制的設計、開發(fā)、優(yōu)化工具,同時也提供了用于加速SoC設計的物理實現(xiàn)支持。此外還有Arm NN 和 Arm Compute Library等軟件庫的持續(xù)優(yōu)化,助力開發(fā)者在 Armv9 架構上優(yōu)化其機器學習 (ML) 工作負載的執(zhí)行效率。
Cortex CPU集群性能再創(chuàng)新高
過去幾年,業(yè)界都看到了Arm對CPU性能和效率的不懈追求。比如首款高性能 Cortex-X CPU、高能效Cortex-A700系列、高效率Cortex-A500系列,不同CPU集群也不斷豐富了 Arm生態(tài)系統(tǒng)。
TCS23中,Arm推出了最新的Arm Cortex-X4,以及集合了Cortex-X4與全新Cortex-A720、Cortex-A520的新一代CPU集群,堪稱Arm史上最強大的Cortex CPU計算集群陣容。
其中,Cortex-X4 專注于實現(xiàn)優(yōu)異性能,并再次帶來了兩位數(shù)的IPC 增長。相較于去年的安卓旗艦設備,其性能提升了15%。兩位數(shù)的IPC增長也為單線程“爆發(fā)式”工作負載提供了峰值性能,例如在智能手機上啟動應用、瀏覽網(wǎng)頁、頁面的加載和渲染,以及相機功能。除性能外,Cortex-X4能效比提高了40%。在保持性能和效率優(yōu)勢的基礎上,還兼具支持更高的可擴展性,每個內(nèi)核的 L2 緩存可多達 2MB,可廣泛適用于各類消費電子設備。
大小核產(chǎn)品方面,Cortex-A520 實現(xiàn)了更好的電源效率,與Cortex-A510相比,在能效方面有22%的提升。尤其針對低密度背景任務,能延遲電池續(xù)航時間。它也是封裝最小的一款Cortex 產(chǎn)品,非常適用于入門級和手機終端設備。
Cortex-A720則是CPU集群產(chǎn)品中的主力產(chǎn)品,與Cortex-A715相比,它在高效方面實現(xiàn)了20%的提升,可以讓設備在更長時間內(nèi)支持多線程的應用處理。除了針對高端機型的待機時長,Cortex-A720在面積配置方面還做了擴展,從而滿足其他檔次的手機產(chǎn)品。
Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Saurabh Pradhan指出,以上三款IP都基于全新的Armv9.2 的架構,都是純64位IP產(chǎn)品,這也意味著Arm完成了向64位的遷移。
“一個全面解決方案要有DSU才完整,此次我們發(fā)布了DSU-120,它不光可以把所有IP很好地結合在一起,同時也是催化劑,能夠?qū)崿F(xiàn)CPU集群最好的性能和效率?!盨aurabh Pradhan表示。
全新DynamIQ Shared Unit——DSU-120是TCS23 CPU集群的核心要素,它基于兩年前推出的DSU-110開發(fā),針對DSU的各方面進行了優(yōu)化提升。擴展性方面,它支持單核到14 核,適用于消費電子設備的各類CPU集群,涵蓋入門級智能手機、可穿戴設備到旗艦智能手機和高端筆記本電腦的各個領域。
此外,DSU-120還提供智能節(jié)能模式,新增24MB和32MB的L3緩存配置選項,進而使對應集群擁有更高的性能和更低的系統(tǒng)功耗。
在現(xiàn)實的使用場景中,這意味著什么呢?比如高性能筆記本電腦中,可由10核Cortex-X4和4核Cortex-A720集群組成;旗艦智能手機方面,可由單核Cortex-X4、4核Cortex-A720和4核Cortex-A520組成??梢钥吹礁黝惙桨钢?,高度可擴展的DSU都為TCS23奠定了根基。同時,Arm還提供一款8核CPU集群,包括單核Cortex-X4、5核 Cortex-A720 和雙核 Cortex-A520。除了這些CPU集群,合作伙伴也可自由定制獨有集群,根據(jù)各式應用場景以及自身計算要求來開發(fā)和運用。
要強調(diào)的是,Arm基于全新的Armv9.2架構構建了所有的CPU新品。除了內(nèi)存標記擴展(MTE)和 可伸縮矢量擴展 SVE2,Armv9.2 架構還為指針驗證(PAC)全新添加了 QARMA3 算法,以提高在 Armv9 CPU 上激活安全功能時的性能表現(xiàn)。
Arm首席 CPU 架構師兼研究員Ian Caulfield補充,“TCS23的CPU集群相當于有三個不同的微架構,針對不同的應用場景可以靈活配置,同時,Arm還提供各種各樣的頻率以及功耗的執(zhí)行點,這是TCS最關鍵的一點。最高效能的Cortex-X4支撐著最高性能的應用;最低功耗的Cortex-A520,主要支持背景低密度的任務,從而實現(xiàn)最低可控的功效;中間的是 Cortex-A720,能夠?qū)崿F(xiàn)最具有持續(xù)性的性能?!?/p>
至于Arm為何堅持超大核、大核、小核的獨特設計哲學?Saurabh Pradhan解釋,“Arm 是目前唯一一家能夠同時提供三種不同微架構的廠商,這是一大優(yōu)勢。我們堅持超大核、大核和小核的設計,從而給予合作伙伴最優(yōu)的選擇組合?!?/p>
基于第五代 GPU 架構,重新定義視覺計算
TCS23的GPU方面,采用了新的第五代 GPU 架構,提高了所有GPU的系統(tǒng)級圖形性能,這意味著除了大幅提高GPU性能,還優(yōu)化了TCS2的外部內(nèi)存、CPU集群和系統(tǒng)級緩存 (SLC) 之間的交互過程,從而提升了整體的性能表現(xiàn)。
Arm 終端事業(yè)部產(chǎn)品管理高級總監(jiān) Anand Patel表示,基于Arm GPU的芯片出貨量已經(jīng)超過90億,今年是第五代架構的第一年,Arm會非常專注于處理效率,關注關鍵的技術趨勢,例如:場景復雜性、更出色的圖形性能和內(nèi)存系統(tǒng)能耗功率。
首先,移動設備上的場景復雜性在呈爆炸式增長,更高的場景復雜性會讓幾何相關的內(nèi)存訪問占據(jù)過多的可用帶寬,并最終影響性能。第五代架構致力于提升圖形管道,讓用戶能夠以更高的每秒幀數(shù) (FPS) 暢玩游戲。與此同時,在移動設備上實現(xiàn)下一代高級別幾何學渲染游戲和實時 3D 應用也成為了可能。
為了處理更復雜的場景,圖形管道首先引入了延遲頂點著色 (DVS), 以重新定義GPU 中的圖形數(shù)據(jù)流。DVS 利于性能隨內(nèi)核數(shù)增加而提升,使合作伙伴能夠在未來達到更高的性能水平,此外,它還有助于在高度復雜的游戲場景中保持穩(wěn)定幀率,同時為未來下一代的幾何內(nèi)容提供支持。
其次,在更出色的圖形性能方面,推動高動態(tài)范圍 (HDR) 渲染的使用需求持續(xù)增加。Arm 也積極支持開發(fā)者擁抱這一趨勢,最新的Immortalis-G720 有助于控制 HDR 渲染中使用的高深度紋理的性能影響。通過引入DVS,超復雜幾何形狀的場景可被渲染,并可節(jié)省處理能力。與基于Valhall架構的Immortalis-G715相比,基于第五代架構的Immortalis-G720的寫入帶寬提高31%,F(xiàn)PS提高20%。借此釋放了圖形管道的空間,用以增加媲美電腦端的質(zhì)量效果,例如實時動態(tài)光照、高光溢出效果和景深。
第三,Arm在TCS22的基礎之上進行回顧總結,發(fā)現(xiàn)DRAM、互連和內(nèi)存均大量導致了內(nèi)存系統(tǒng)能耗功率,也就是說內(nèi)存系統(tǒng)能耗功率是導致處理器散熱達到極限的主要因素。因此在第五代GPU架構中,希望為GPU分配更多的內(nèi)存系統(tǒng)效能以達到更好的視覺效果,同時也希望可以進一步節(jié)約能耗功率,以延長電池續(xù)航時間。
除了引入第五代架構外,Immortalis 和 Mali GPU的整體設計在性能和效率方面也實現(xiàn)了大幅提升。Immortalis-G720 支持10核或更多核心,并可選用優(yōu)化的物理IP來加速 SoC 設計。Mali-G720可支持6到9核,而Mali-G620可支持最多5個核,可助力快速復用。
此外,在廣受歡迎的光線追蹤功能方面,Arm正在與騰訊游戲和MediaTek 合作,通過 SmartGI技術以進一步提高行業(yè)采用率,并開發(fā)最佳實踐文檔,為游戲開發(fā)者提供支持。
內(nèi)存標記擴展(MTE)應對內(nèi)存安全挑戰(zhàn)
Arm 終端事業(yè)部軟件戰(zhàn)略總監(jiān)盧旻盛指出,內(nèi)存標記擴展(MTE)是未來數(shù)字化和更加好的智能化體驗的基礎。由于數(shù)字化、智能化建立在更好的計算能力基礎之上,這樣才能讓更多的軟件實現(xiàn)更好的功能。但其中涉及一個問題,軟件越復雜,漏洞也會隨之增長,如果不從根本上改變這個現(xiàn)狀的話,就很難實現(xiàn)智能化所帶來的真正好處。
利用MTE,開發(fā)者可以快速找到內(nèi)存相關漏洞,加快應用調(diào)試和開發(fā)流程。此外,該功能支持動態(tài)更改配置,這意味著在現(xiàn)場可通過漏洞報告和遙測系統(tǒng),向開發(fā)者回傳有關訪問故障位置的準確信息。構建于最新 Armv9 架構的 Arm CPU,Arm提供MTE等安全功能,能夠為軟件開發(fā)者、芯片供應商和設備制造商提供影響深遠的信息安全、功能安全、成本和上市時間優(yōu)勢。
事實上,內(nèi)存安全是一個很老的問題,很多軟件平臺操作系統(tǒng)很早就開始提出這一問題。據(jù)操作系統(tǒng)供應商 (OSV) 報告,其產(chǎn)品中的大多數(shù)安全問題都源于內(nèi)存安全違規(guī)導致的漏洞。谷歌的Chromium項目團隊表示,內(nèi)存安全問題在所有嚴重安全漏洞中占到70%。
內(nèi)存安全違規(guī)有兩種主要類型:空間安全違規(guī)和時間安全違規(guī)。MTE 可提供在生產(chǎn)代碼中檢測這兩種違規(guī)的機制,且無需使用任何儀器。
盧旻盛介紹,Arm 實現(xiàn)的MTE為兩階段系統(tǒng),即“鎖”和“密鑰”。如果密鑰匹配,則允許訪問鎖內(nèi)存;否則,訪問可能會被記錄下來或出錯。這樣就可以更輕松地檢測到難以捕獲的內(nèi)存安全錯誤,也有助于進行常規(guī)調(diào)試。
在鎖和密鑰兩階段系統(tǒng)中,存在兩種類型的標記:地址標記,用作密鑰。這將在進程中每個指針的最高位增加四位。地址標記僅適用于 64 位應用,因為它使用了“高字節(jié)忽略”功能,這是Arm 64位的一個功能。內(nèi)存標記,用作鎖。內(nèi)存標記也由四位組成,與應用內(nèi)存空間中每個對齊的 16 字節(jié)區(qū)域相連接。Arm 將這些 16 字節(jié)區(qū)域稱為標記顆粒。這四位并不用于應用數(shù)據(jù),而且是分開存儲。
MediaTek在天璣旗艦9200中就已經(jīng)支持了MTE,MediaTek 無線通信事業(yè)部資深總監(jiān)章立認為,芯片級的安全是整個移動生態(tài)的基礎設施,沒有芯片級的安全就沒有今天移動生態(tài)的繁榮。
在 MTE 技術之前,很多應用開發(fā)者都會有這類困惑,比如:指針的控制、錯誤的使用造成內(nèi)存的泄露。有了MTE之后,可以動態(tài)捕捉指針的錯誤,從而大大提升移動IT的安全性。其次,MTE對用戶體驗的提升也非常關鍵的,它提供了一個工具或方法,能夠讓開發(fā)者把移動性能做得更健壯、更穩(wěn)定、用戶體驗更好。
vivo芯片規(guī)劃和架構高級總監(jiān)夏曉菲表示,vivo作為整機廠商,通過與Arm、MediaTek 的合作,可以讓軟件開發(fā)者有效把MTE用起來。從目前收到的反饋來看,很多開發(fā)者表示越來越離不開這個特性,因為這極大加速了他們軟件開發(fā)的效率,最終也能給消費者帶來很好的體驗,達到端側性能的平衡。
榮耀公司MagicOS DFS架構師余亮分享了為什么要使用 MTE、以及榮耀天網(wǎng)如何使用 MTE。他認為,首先踩內(nèi)存的問題影響非常大,會導致用戶功能不可用和應用閃退,甚至整機重啟。其次,MTE 能在踩內(nèi)存時,捕獲故障現(xiàn)場的日志,提供更準確的定位信息,最后能以更低的內(nèi)存開銷和更好的指令性能,相比ASan、HWASan 更接近用戶真實的性能環(huán)境。
榮耀天網(wǎng)提供兩種接入方式,第一是購買支持 MTE 的設備,通過HOTA升級到天網(wǎng)版本。第二是云服務,企業(yè)開發(fā)者用戶登錄榮耀相關應用網(wǎng)站,進入遠程真機調(diào)試環(huán)境。通過這些方式,打造更穩(wěn)定、更安全的生態(tài)環(huán)境。
例如快手的海外產(chǎn)品 (Kwai和SnackVideo) ,目前正和榮耀天網(wǎng)合作,在大型項目中使用 Arm MTE提高內(nèi)存安全。據(jù)了解,90%的內(nèi)存安全問題可以在App正式發(fā)布之前就在線下被檢測出來。
盧旻盛表示,Armv9 架構是全球數(shù)十億移動設備的計算基礎,MTE現(xiàn)已廣泛普及,Arm架構正在成為全球數(shù)字化安全的基石。
自下而上的安全加固
除了IP方面的升級更新,在軟件和生態(tài)系統(tǒng)合作方面Arm做了很多工作。據(jù)了解,Arm內(nèi)部有45%的工程師屬于軟件開發(fā)人員,一些工程師從事底層開發(fā),更多的工程師則從事高層開發(fā),比如軟件框架、性能分析工具、實踐應用等。
首先在安卓移動生態(tài)系統(tǒng)向64位的遷移過程中,需要產(chǎn)業(yè)鏈不同角色之間非常細致的協(xié)調(diào)。此外,并不是從生態(tài)系統(tǒng)中就完全消除 32 位,市場上還有很多32位的設備需要支持。
Arm 終端事業(yè)部生態(tài)系統(tǒng)及工程高級總監(jiān)Geraint North表示,這既需要解決32位的歷史遺留問題,向應用開發(fā)者證明64位的過渡是在真實發(fā)生的,并且也需要為他們64位的平臺提供一些額外的助力。在過去的五年中,Arm積極與生態(tài)系統(tǒng)合作,為僅支持64位的硬件做好了相應的軟件準備。
其次在安全技術部署方面的,現(xiàn)在業(yè)界的軟件數(shù)量是有史以來最多的,而且越來越多的數(shù)據(jù)會在它生命周期的某一個點推動 Arm IP,這也更為考驗Arm軟件的安全性和穩(wěn)定性支持,也正是如此,Armv9架構越來越注重安全技術的引入。
Geraint North談到,Armv9 CPU中,除了MTE外,還首次推出了PAC和BTI安全功能,BTI可以保護程序不跳轉(zhuǎn)到內(nèi)存中未經(jīng)授權的地址,PAC和BTI聯(lián)合使用,攻擊者就很難將現(xiàn)有的代碼的片斷用于不法手段,能提供最大限度的保護。
Armv9是未來,行業(yè)加速向64位遷移
過去的一年多,全球幾乎所有的移動應用商店都全面對64位系統(tǒng)提供支持,應用生態(tài)系統(tǒng)也已做好迎接純64位設備的準備。那么,Arm后續(xù)是否會將重心全部投入Armv9架構,并逐漸停止Armv8的更新?
Saurabh Pradhan表示,整個Armv9就是Armv8的升級換代,在終端應用領域,基于Armv8架構將不會推出新品。
Ian Smythe補充,核的性能提升表示處理的指令數(shù)量要提高,Arm在Armv9架構上做了巨大的投資,Armv8和Armv9的性能差非常巨大的,Armv9就是未來。此外,Cortex-A520 也是真正意義上的首個純64位Arm小核CPU,隨著純 64 位的移動設備進入市場,預計很快將會涌現(xiàn)更多此類設備。
Arm終端事業(yè)部高級產(chǎn)品經(jīng)理Manish Pandey表示,純64位系統(tǒng)可以為合作伙伴提供更高的計算能力、更高的安全和機器學習功能,同時有助于提升應用開發(fā)流程。在算力表現(xiàn)方面,64 位指令集性能提升可達20%,可縮短應用加載時間,并實現(xiàn)更出色、更敏捷的用戶體驗。這有助于滿足多種工作負載(特別是 AI 和 AAA 級游戲)對算力的無盡需求。
目前,絕大多數(shù)安卓移動設備上部署的操作系統(tǒng) (5.0 及更高版本) 可同時支持 64 位和 32 位安卓運行。Manish Pandey認為,這額外增加了內(nèi)存、開發(fā)和測試方面的負擔,在向純 64 位移動設備過渡的過程中,優(yōu)先開發(fā)64位應用可以降低復雜性、開發(fā)成本和測試成本,并縮短上市時間。這一舉措也能推動安卓生態(tài)系統(tǒng)專注于支持新興功能和技術,并實現(xiàn) 32 位架構無法達到的出色性能和穩(wěn)健性。
寫在最后
全球移動數(shù)據(jù)使用量仍在持續(xù)攀升,柔性顯示屏、AR光學等新形式、新元素正在以不同方式進入大眾視野,生成式AI及移動端大型語言模型的出現(xiàn),將帶來新的功能和需求,移動設備的創(chuàng)新有望持續(xù)提升。
針對移動計算應用場景,Arm希望通過TCS23實現(xiàn)整體SoC性能和效率的更優(yōu)表現(xiàn)。正如Arm方面所說,無論合作伙伴選擇哪一種TCS23配置,都希望能助力他們在SoC 開發(fā)過程中縮短上市時間、并降低成本。