Ido Gus,?深度學(xué)習(xí)高級(jí)團(tuán)隊(duì)負(fù)責(zé)人,?傳感器與音頻業(yè)務(wù)部門, Ceva
神經(jīng)處理單元(NPU)的出現(xiàn)徹底改變了機(jī)器學(xué)習(xí)領(lǐng)域,使深度學(xué)習(xí)任務(wù)所需的復(fù)雜數(shù)學(xué)計(jì)算得以高效地執(zhí)行。通過(guò)優(yōu)化矩陣乘法和卷積運(yùn)算,NPU極大地增強(qiáng)了AI(人工智能)模型在各個(gè)領(lǐng)域的能力,從服務(wù)器群到電池驅(qū)動(dòng)設(shè)備。
TinyML(微型機(jī)器學(xué)習(xí))的出現(xiàn)進(jìn)一步推動(dòng)了AI的發(fā)展,其重點(diǎn)是在資源有限的嵌入式設(shè)備上實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法。TinyML的目標(biāo)是在數(shù)十億邊緣設(shè)備上實(shí)現(xiàn)AI能力,使它們能夠在本地實(shí)時(shí)處理數(shù)據(jù)并做出決策,而無(wú)需依賴云連接或強(qiáng)大的計(jì)算資源。
結(jié)合NPU技術(shù)基礎(chǔ)和TinyML最新發(fā)展,Ceva推出了創(chuàng)新性的Ceva-NeuPro –Nano。這款緊湊高效的NPU IP是針對(duì)TinyML應(yīng)用精心設(shè)計(jì)的,在性能和能效之間實(shí)現(xiàn)了完美平衡。Ceva-NeuPro-Nano的獨(dú)特架構(gòu)經(jīng)過(guò)優(yōu)化,能夠端到端完整運(yùn)行TinyML應(yīng)用的整個(gè)流程,從數(shù)據(jù)采集和特征提取到模型推斷,使其成為資源受限、電池驅(qū)動(dòng)設(shè)備的理想自給自足解決方案。
來(lái)源 (Ceva)
設(shè)計(jì)理念:
Ceva-NeuPro-Nano的設(shè)計(jì)理念源于深入了解用戶的需求和觀點(diǎn),我們希望提供一種功能強(qiáng)大且用戶友好的解決方案。設(shè)計(jì)理念的主要指導(dǎo)思想是優(yōu)先考慮軟件的易用性和解決應(yīng)用層面的難題,而不是僅僅關(guān)注神經(jīng)網(wǎng)絡(luò)層。這種方法確保了Ceva-NeuPro-Nano能夠高效且無(wú)縫地處理神經(jīng)網(wǎng)絡(luò)、控制和DSP(數(shù)字信號(hào)處理)工作負(fù)載。
主要目標(biāo)是創(chuàng)建一個(gè)嵌入式AI的NPU,在不降低能效的情況下提供行業(yè)領(lǐng)先的性能。Ceva-NeuPro-Nano的頂尖級(jí)硬件設(shè)計(jì)專門針對(duì)TinyML應(yīng)用的低功耗、高效率需求進(jìn)行了優(yōu)化,這使得它成為資源有限的邊緣設(shè)備的理想解決方案。
軟件優(yōu)先:
Ceva-NeuPro-Nano的綜合軟件生態(tài)系統(tǒng)支持兩大TinyML推理框架:TensorFlow Lite for Microcontrollers和MicroTVM。這確保了能與各種TinyML應(yīng)用無(wú)縫集成。與許多其他解決方案不同,Ceva-NeuPro-Nano不僅僅是一個(gè)依賴于主機(jī)微控制器單元(MCU)的加速器;它是一個(gè)完全可編程的處理器,具有出色的神經(jīng)網(wǎng)絡(luò)(NN)和數(shù)字信號(hào)處理(DSP)能力,這使得它能夠應(yīng)對(duì)未來(lái)的發(fā)展需求,并適應(yīng)任何未來(lái)層級(jí)或運(yùn)算操作。
除了對(duì)主流TinyML框架的支持,Ceva-NeuPro-Nano還配備了一個(gè)全面的神經(jīng)網(wǎng)絡(luò)庫(kù),用于需要手動(dòng)調(diào)整模型的情況,并且提供完整的數(shù)字信號(hào)處理(DSP)功能的DSP庫(kù)。這些全面的庫(kù)增強(qiáng)了Ceva-NeuPro-Nano的適應(yīng)性和多功能性,使開發(fā)者能夠輕松地將其應(yīng)用到各種獨(dú)特的應(yīng)用需求中。
創(chuàng)新架構(gòu):
Ceva-NeuPro-Nano架構(gòu)引入了多項(xiàng)創(chuàng)新功能,解決了TinyML應(yīng)用中的關(guān)鍵痛點(diǎn)。它支持直接處理壓縮模型權(quán)重,無(wú)需進(jìn)行內(nèi)存密集型的解壓縮操作,這使其非常適合內(nèi)存有限的TinyML設(shè)備。先進(jìn)的數(shù)據(jù)緩存系統(tǒng)簡(jiǎn)化了硬件管理,提高了整體效率,消除了直接內(nèi)存訪問(wèn)(DMA)調(diào)度的復(fù)雜性。
Ceva-NeuPro-Nano的硬件架構(gòu)經(jīng)過(guò)專門設(shè)計(jì),旨在處理非線性激活,使其能夠支持各種機(jī)器學(xué)習(xí)模型。它還集成了尖端節(jié)能技術(shù),確保高效率,非常適合對(duì)功耗敏感的邊緣設(shè)備。憑借對(duì)對(duì)稱和非對(duì)稱量化方案的硬件級(jí)支持,以及本地4位數(shù)據(jù)類型支持,Ceva-NeuPro-Nano可適應(yīng)各種TensorFlow模型,進(jìn)一步擴(kuò)大其適應(yīng)性,并實(shí)現(xiàn)更高效的數(shù)據(jù)處理和存儲(chǔ)。
MAC數(shù)量大比拼
許多NPU制造商會(huì)吹噓其設(shè)計(jì)中的MAC(乘法累加)單元數(shù)量越來(lái)越多,暗示MAC越多性能越好。然而在Ceva,我們對(duì)Ceva-NeuPro-Nano采取了不同的方法,重點(diǎn)關(guān)注MAC的利用率而不是單純的數(shù)量。
我們認(rèn)識(shí)到,如果不能有效利用MAC單元,那么擁有大量的MAC單元并不一定就意味著能實(shí)現(xiàn)更優(yōu)秀的性能。事實(shí)上,MAC數(shù)量更多,往往導(dǎo)致功耗增加,卻不會(huì)帶來(lái)相應(yīng)的性能提升。Ceva-NeuPro-Nano NPU有兩個(gè)版本:Ceva-NPN32有32個(gè)8×8 MAC,Ceva-NPN64有64個(gè) 8×8MAC。通過(guò)大量的實(shí)驗(yàn),我們證明了我們的32-MAC版本可以與其他128 MAC的解決方案相媲美。我們的創(chuàng)新設(shè)計(jì)和架構(gòu)提高了MAC利用率,從而實(shí)現(xiàn)了這一卓越的效率。
在Ceva-NeuPro-Nano中,我們優(yōu)先考慮MAC利用率而非簡(jiǎn)單的追求數(shù)量,因此在保持較低功耗的同時(shí),提供了令人矚目的性能。這種方法完美契合TinyML應(yīng)用的需求,因?yàn)門inyML應(yīng)用對(duì)功耗方面要求極高。我們專注于效率的優(yōu)化,使Ceva-NeuPro-Nano能夠在性能上超越那些MAC數(shù)量更多的競(jìng)爭(zhēng)對(duì)手,證明智能設(shè)計(jì)和優(yōu)化遠(yuǎn)比參與MAC數(shù)量大比拼更為重要。
現(xiàn)實(shí)使用案例:
我們進(jìn)行了嚴(yán)格的測(cè)試和分析,將各種TinyML模型在NeuPro-Nano上的執(zhí)行情況與其他解決方案進(jìn)行了比較。結(jié)果突顯了NeuPro Nano的驚人價(jià)值。它的面積縮小了45%,能效提升了3倍,內(nèi)存消耗減少了高達(dá)80%,并且在TinyML網(wǎng)絡(luò)性能上提升了10倍。
我們通過(guò)專注于分布在三大支柱(3 V)上的現(xiàn)實(shí)TinyML使用案例,實(shí)現(xiàn)了這些出色的性能和效率指標(biāo):視覺、語(yǔ)音、振動(dòng):
- 在視覺支柱方面,我們認(rèn)識(shí)到人臉檢測(cè)、地標(biāo)檢測(cè)、物體檢測(cè)和圖像分類等輕型計(jì)算機(jī)視覺任務(wù),在可穿戴設(shè)備和物聯(lián)網(wǎng)設(shè)備進(jìn)行交互和了解環(huán)境方面發(fā)揮著重要作用。EfficientNet、MobileNet、Squeezenet和Tiny YOLO等穩(wěn)健的、經(jīng)過(guò)行業(yè)驗(yàn)證的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),可以處理主要的輕量級(jí)計(jì)算機(jī)視覺任務(wù),這些是我們考慮的模型的幾個(gè)例子。這確保了Ceva-NeuPro-Nano能夠優(yōu)雅而高效地處理CNN、深度卷積和其他層次。
- 在振動(dòng)支柱方面,我們借鑒了Ceva在IMU硬件、軟件和應(yīng)用開發(fā)方面的獨(dú)特經(jīng)驗(yàn),這些經(jīng)驗(yàn)幫助我們解決了諸如人體活動(dòng)識(shí)別和異常檢測(cè)等任務(wù),這些任務(wù)在可穿戴技術(shù)和工業(yè)應(yīng)用中具有重要意義。
- 在語(yǔ)音支柱方面,作為人機(jī)交互的下一個(gè)重要步驟,我們利用了自身在語(yǔ)音傳感應(yīng)用開發(fā)方面的豐富經(jīng)驗(yàn)(如關(guān)鍵詞檢測(cè)、降噪和語(yǔ)音識(shí)別),以及對(duì)該領(lǐng)域工作的深入了解。我們考慮到從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)到輕量化Transformer模型等多種設(shè)計(jì)的網(wǎng)絡(luò),確保了NeuPro Nano設(shè)計(jì)可以駕馭各種網(wǎng)絡(luò)結(jié)構(gòu)。
在整合三大支柱(3 V)時(shí),我們意識(shí)到了基于神經(jīng)網(wǎng)絡(luò)應(yīng)用中經(jīng)常被忽視的一個(gè)重要部分——特征提取的重要性。這促使我們?cè)贑eva-NeuPro-Nano設(shè)計(jì)中集成了強(qiáng)大的控制和DSP功能。
結(jié)論:
Ceva-NeuPro-Nano獨(dú)特的架構(gòu),高效的MAC利用率,和全面的軟件生態(tài)系統(tǒng)使其成為一個(gè)強(qiáng)大的多功能解決方案。它的設(shè)計(jì)理念側(cè)重于現(xiàn)實(shí)使用案例和應(yīng)用層面的挑戰(zhàn),確保能夠高效、無(wú)縫地處理各種任務(wù)。憑借其突破性的性能、效率和適應(yīng)性,Ceva-NeuPro-Nano將革新TinyML領(lǐng)域,為數(shù)十億資源受限的設(shè)備帶來(lái)機(jī)器學(xué)習(xí)的力量。
Ceva-NeuPro-Nano成為了Ceva-NeuPro系列NPU中的一員,擴(kuò)展了我們的客戶現(xiàn)在可以處理的邊緣AI工作負(fù)載范圍,涵蓋了從TinyML應(yīng)用到大規(guī)模生成式AI模型的各種需求。
?