自從2018年整合Arm在華業(yè)務(wù)成立合資公司進(jìn)行獨(dú)立運(yùn)營(yíng)以來(lái),業(yè)界一直關(guān)注安謀科技自研產(chǎn)品技術(shù)的發(fā)展。在這期間,圍繞人工智能、CPU、信息安全、多媒體處理等核心領(lǐng)域,安謀科技推出了“周易”NPU、“星辰”CPU、“山海”SPU以及“玲瓏”ISP、“玲瓏”VPU等處理器IP,并實(shí)現(xiàn)了客戶相關(guān)產(chǎn)品的流片和量產(chǎn)。截止目前,已經(jīng)有超過(guò)160家本土客戶采用了該公司自研的IP,而基于安謀科技自研IP的芯片出貨量也已突破2億顆。
這5年也是AI應(yīng)用在縱深市場(chǎng)高速擴(kuò)張的時(shí)期,對(duì)AI處理能力不斷增加的需求推動(dòng)了相關(guān)產(chǎn)品的快速迭代。日前,面向智能汽車和邊緣計(jì)算AI圖像處理,安謀科技推出了新一代NPU“周易”X2 NPU,該處理器不僅在算力、精度、靈活性等方面進(jìn)行了大幅提升,還針對(duì)車載、邊緣計(jì)算等應(yīng)用場(chǎng)景進(jìn)行了專門優(yōu)化,進(jìn)一步提升這些場(chǎng)景下的計(jì)算效率,滿足包括4K高分辨率在內(nèi)的多種分辨率和多路圖像融合計(jì)算的需求。
安謀科技執(zhí)行副總裁、產(chǎn)品研發(fā)負(fù)責(zé)人劉澍表示,“周易”X2 NPU首先面向汽車市場(chǎng)。中國(guó)的汽車發(fā)展動(dòng)力強(qiáng)勁,中國(guó)市場(chǎng)汽車銷量已占全球汽車銷量的1/3。同時(shí),安謀科技的中國(guó)客戶也有長(zhǎng)足的進(jìn)步和發(fā)展,本土智能汽車品牌正在崛起,相信中國(guó)智能汽車的發(fā)展進(jìn)程將經(jīng)歷類似于智能手機(jī)的發(fā)展,中國(guó)品牌會(huì)在全球市場(chǎng)上占據(jù)越來(lái)越重要的地位。
在汽車智能化中自動(dòng)駕駛(ADAS)對(duì)AI的需求越來(lái)越多,包括ADAS系統(tǒng)中更多的攝像頭和雷達(dá)信號(hào)的處理,以及車內(nèi)車外各種輔助系統(tǒng)的決策,需要更高的幀率、更大的算力、更多人機(jī)交互、更多安全性等,這些都對(duì)處理器IP產(chǎn)品提出了更高的要求,而“周易”X2 NPU的推出,可以滿足這些需求。當(dāng)然,除了汽車,該產(chǎn)品也面向其他算力場(chǎng)景的邊緣側(cè)應(yīng)用,如服務(wù)器、手機(jī)、PC、平板電腦等。
汽車智能化過(guò)程對(duì)AI圖像處理提出了更多的要求。以多路圖像融合計(jì)算——主要是ADAS應(yīng)用——為例,其在AI算法演進(jìn)上,不僅需要處理器能夠在統(tǒng)一空間支持多模傳感器感知融合與多任務(wù)共享,還要能夠預(yù)測(cè)與規(guī)劃聯(lián)合建模,離線與在線學(xué)習(xí)相結(jié)合,能夠自學(xué)習(xí)處理不確定性下的安全與可解釋問(wèn)題,通過(guò)持續(xù)學(xué)習(xí)解決新場(chǎng)景問(wèn)題。
這一演進(jìn)趨勢(shì)需要更高的算力和一系列性能優(yōu)化來(lái)實(shí)現(xiàn)。據(jù)安謀科技產(chǎn)品總監(jiān)楊磊介紹,相較于上一代產(chǎn)品,“周易”X2 NPU 基于最新的V3架構(gòu)指令集,在八個(gè)方面進(jìn)行了技術(shù)升級(jí):
一、其多核cluster, 可支持最高達(dá)320 TOPS子系統(tǒng);
二、支持更好的i-Tiling技術(shù)方案,可大幅減少帶寬需求,解決內(nèi)存墻問(wèn)題,進(jìn)一步提升計(jì)算效率,從而大幅降低系統(tǒng)的成本;
三、采用TSM任務(wù)分拆和管理技術(shù),可以充分發(fā)揮各個(gè)計(jì)算單元效能,提高算法效率;
四、支持混合精度計(jì)算,包括 int4/int8/int12/int16/int32, fp16/bf16/fp32。既可以做定點(diǎn)的、整型的數(shù)據(jù)計(jì)算,也支持浮點(diǎn)的16bit或者是32bit的計(jì)算,可以很好地平衡功耗、算力密度以及計(jì)算精度。這是V3架構(gòu)里新支持的技術(shù)功能;
五、針對(duì)汽車領(lǐng)域常見的AI模型Transformer專門進(jìn)行了性能優(yōu)化。包括現(xiàn)在最火熱的ChatGPT,模型基礎(chǔ)架構(gòu)也是基于Transformer的;
六、增加了無(wú)損的權(quán)重壓縮技術(shù),節(jié)省了數(shù)據(jù)傳輸的帶寬;
七、低功耗技術(shù)升級(jí),在7nm工藝節(jié)點(diǎn)上實(shí)現(xiàn)10TOP/W的能效;
八、面向手持設(shè)備做了專門的優(yōu)化,例如拍照AI去噪聲,視頻的超分辨率、插幀等。
?圖1:“周易”X2 NPU主要功能升級(jí)
“周易”X2 NPU 基于最新的V3架構(gòu)指令集。對(duì)此,安謀科技NPU研發(fā)高級(jí)總監(jiān)孫錦鴻強(qiáng)調(diào)道:相較于“周易”V1、V2架構(gòu),V3架構(gòu)更強(qiáng)調(diào)并行性和可擴(kuò)展性。整個(gè)“周易”NPU設(shè)計(jì)的核心思想是在指令以及數(shù)據(jù)處理單元的同構(gòu)計(jì)算里做到最大并行;而在異構(gòu)上,則是把數(shù)據(jù)的Channel和Batch,甚至異構(gòu)算子做成并行,在同構(gòu)和異構(gòu)的單元里得到統(tǒng)一。在此基礎(chǔ)上擴(kuò)展內(nèi)核和Cluster,通過(guò)不同顆粒度的并行性來(lái)體現(xiàn)整個(gè)“周易”架構(gòu)的強(qiáng)擴(kuò)展性。雖然“周易”V3架構(gòu)的擴(kuò)展維度多樣,但都可以通過(guò)統(tǒng)一的OpenCL界面把不同擴(kuò)展性的計(jì)算單元通過(guò)統(tǒng)一的編程方式進(jìn)行編程,因此提供了較好的用戶體驗(yàn)。
孫錦鴻表示,“周易”NPU團(tuán)隊(duì)自主定義了V3架構(gòu)所有的超過(guò)1000個(gè)的指令集。針對(duì)不同場(chǎng)景,這些指令基于VLIW結(jié)構(gòu),由長(zhǎng)指令和短指令構(gòu)成,并且可以支持64bit和128bit的指令包,做到統(tǒng)一的指令集組合。
為了開發(fā)者可以方便、快速地進(jìn)行算法移植和調(diào)試,從第一代“周易”NPU推出開始,安謀科技就提供了一套完整的人工智能軟件開發(fā)套件,該套件支持主流的人工智能框架,如 TensorFlow、Caffe、ONNX、PyTorch等模型,具有多種開放接口,支持用戶模型和自定義算子等開發(fā)和調(diào)試。套件搭載了豐富的調(diào)試工具。支持多種層次的開發(fā)和調(diào)試,滿足高級(jí)開發(fā)者白盒開發(fā)的性能調(diào)優(yōu)的需求。其他資源包括支持 Android、Linux、RTOS 、QNX 等不同 OS,支持 TVM、Arm NN 的 SoC 異構(gòu)計(jì)算,從而有效使用 CPU、GPU、NPU等計(jì)算資源,具有Bit精度的軟件仿真平臺(tái),便于算法移植和部署。
目前“周易”NPU這套工具鏈及技術(shù)服務(wù),可適配100多種算法。楊磊強(qiáng)調(diào),“周易”NPU也可以支持客戶的自定義算子,以滿足各種模型部署的需求,支持定制差異化的AI解決方案。
縱觀安謀科技的產(chǎn)品路線,不難看出其立意在于打造完整的異構(gòu)計(jì)算矩陣,而就IP商業(yè)模式而言,生態(tài)建設(shè)至關(guān)重要。安謀科技在去年7月發(fā)起了生態(tài)伙伴計(jì)劃,目前已有來(lái)自智能汽車、AIoT、終端領(lǐng)域的40家頭部芯片設(shè)計(jì)公司、解決方案提供商和系統(tǒng)平臺(tái)公司加入。
異構(gòu)計(jì)算的IP解決了底層硬件重復(fù)開發(fā)的問(wèn)題,而面向著多元化的應(yīng)用,要實(shí)現(xiàn)每一個(gè)領(lǐng)域的廣泛參與,“開源”是一個(gè)重要的舉措。例如“周易”NPU面向物聯(lián)網(wǎng)、智能終端、汽車等市場(chǎng),而面向這些領(lǐng)域的芯片設(shè)計(jì)工程師通常要面對(duì)上層軟件的應(yīng)用、算法開發(fā)、選擇適合自身硬件的推理軟件工具、算法移植等共性問(wèn)題。
因此,繼生態(tài)伙伴計(jì)劃之后,去年11月,安謀科技開始發(fā)起“周易”NPU軟件開源計(jì)劃,通過(guò)開放源碼,來(lái)滿足客戶更自主、更靈活的算法移植需求,攜手更多開發(fā)者以及合作伙伴共建國(guó)內(nèi)NPU產(chǎn)業(yè)生態(tài)。而隨著此次“周易”X2 NPU的發(fā)布,該公司也正式對(duì)外發(fā)布這一計(jì)劃,在第一階段,安謀科技對(duì)外開放的資源包括NPU中間表示層規(guī)范、模型解析器、模型優(yōu)化器、驅(qū)動(dòng)等,并提供免費(fèi)的軟件工具鏈,包括軟件模擬器、調(diào)試器、C編譯器。
圖2:“周易”NPU軟件開源計(jì)劃
具體而言,安謀科技目前已開源其“周易” Compass軟件平臺(tái)的前端,并在開源計(jì)劃的第一階段開放以下資源:
Compass解析器——解析器源代碼和中間層表示規(guī)范;
NPU Linux驅(qū)動(dòng)——更易在現(xiàn)有SoC上部署,并符合GPLv2協(xié)議;
Compass集成——提供“周易”NPU網(wǎng)絡(luò)構(gòu)造工具端到端驗(yàn)證環(huán)境;
模型倉(cāng)庫(kù)——已驗(yàn)證的開源NN模型,便于測(cè)試和快速上手。
其中,Compass解析器的主要作用是將多種框架的模型轉(zhuǎn)換成“周易”NPU的中間表示,開發(fā)者可以基于源碼進(jìn)行修改以適配更多神經(jīng)網(wǎng)絡(luò)模型。除了調(diào)試、驗(yàn)證解析器本身功能之外,開發(fā)者還可以在極術(shù)社區(qū)上免費(fèi)獲取軟件工具鏈,進(jìn)行算法模型端到端的調(diào)試和驗(yàn)證。如下圖所示,Compass解析器不僅支持基于軟件仿真器的調(diào)試和結(jié)果驗(yàn)證,還可以部署到內(nèi)嵌“周易”NPU的芯片上進(jìn)行測(cè)試和性能優(yōu)化。
圖3:“周易”Compass軟件平臺(tái)
楊磊表示,“周易”Compass軟件平臺(tái)不僅能充分發(fā)揮NPU的性能,還能支持安謀科技提供的一攬子IP組合異構(gòu)計(jì)算解決方案,包括Arm CPU、GPU,以及安謀科技自研ISP、VPU、SPU等。目前,“周易”Compass軟件平臺(tái)支持TVM以及Arm NN兩套異構(gòu)計(jì)算平臺(tái),能夠?qū)?a class="article-link" target="_blank" href="/tag/SoC%E8%8A%AF%E7%89%87/">SoC芯片中的CPU、GPU、NPU IP的性能協(xié)同發(fā)揮出來(lái),這也是比較新的功能。
安謀科技已分別在代碼托管平臺(tái)Gitee、GitHub上建立該項(xiàng)目的開源庫(kù),開發(fā)者可以方便地在這些平臺(tái)上獲取資源。據(jù)悉,這只是“周易”NPU軟件開源計(jì)劃的第一步,安謀科技后續(xù)還將逐步開放更多資源,例如模型優(yōu)化器、模型量化、算子實(shí)現(xiàn)等源代碼。
“周易”X2 NPU已經(jīng)可以正式交付客戶,今年將會(huì)有多款搭載“周易”X2 NPU的芯片產(chǎn)品面世。截止目前,“周易”NPU軟件開源計(jì)劃已吸引了首批合作伙伴“入駐”。隨著安謀科技異構(gòu)計(jì)算產(chǎn)品的發(fā)展和演進(jìn),其獨(dú)立運(yùn)營(yíng)的基礎(chǔ)進(jìn)一步夯實(shí),在堅(jiān)持開展自研IP業(yè)務(wù)和發(fā)展Arm IP業(yè)務(wù)這一模式不變的基礎(chǔ)上,安謀科技對(duì)其在中國(guó)半導(dǎo)體及自研IP產(chǎn)業(yè)發(fā)展中扮演的角色充滿信心。