作者丨姬曉婷
編輯丨張心怡
美編丨馬利亞
監(jiān)制丨連曉東
自計算處理器出現(xiàn),計算產(chǎn)業(yè)一直在關(guān)注兩個問題:一是性能的提升,二是耗能的降低。在人工智能需求的拉動下,全球眾多科研機構(gòu)和相關(guān)企業(yè)都在研究提升處理器運算能力的新方式,神經(jīng)擬態(tài)處理器就是其中一個嘗試方向。
如何模擬人腦?
神經(jīng)擬態(tài)計算,顧名思義,是一種模擬人腦神經(jīng)結(jié)構(gòu)和運行方式有關(guān)的計算,又被稱為類腦計算和神經(jīng)形態(tài)計算。幾十年來,科學(xué)家一直在研究如何重現(xiàn)生物神經(jīng)元的多功能計算能力,以開發(fā)速度更快、更節(jié)能的機器學(xué)習(xí)系統(tǒng)。
經(jīng)過幾十年的探索和研究,產(chǎn)研界探索出三條神經(jīng)擬態(tài)處理器的實現(xiàn)形式。其一是數(shù)字CMOS型,以邏輯門電路仿真實現(xiàn)生物單元行為。其二是數(shù)?;旌系腃MOS型,即利用亞閾值模擬電路模擬生物神經(jīng)單元的特性。以上兩種采用的都是硅基晶體管實現(xiàn)。第三種實現(xiàn)形式是發(fā)展新型器件,例如憶阻器、相變存儲器、鐵電器件、磁隧道結(jié)、離子?xùn)趴鼐w管等,且采用非硅基類器件。
以上研究大多沒有實現(xiàn)量產(chǎn)。在諸多研究機構(gòu)和企業(yè)中,英特爾采用的就是上述第一類實現(xiàn)方式——以晶體管模擬人類神經(jīng)元功能。在諸多模擬的功能中,如何使處理器像人腦一樣實現(xiàn)節(jié)能,就是其中一項。
神經(jīng)擬態(tài)學(xué)工程師、德國海德堡大學(xué)物理學(xué)家卡爾海因茨·邁耶(Karlheinz Meier)曾表示,人腦相對計算機而言有三大特性,第一大特性就是低能耗,人腦的功率大約是20瓦特。
今年4月,英特爾發(fā)布神經(jīng)擬態(tài)系統(tǒng)Hala Point。據(jù)稱,該系統(tǒng)在執(zhí)行AI推理負載和處理優(yōu)化問題時,其速度比常規(guī)CPU和GPU架構(gòu)快50倍,同時能耗降低了100倍。近日,英特爾中國研究院院長宋繼強向中國電子報記者詳細介紹了該系統(tǒng)模擬人腦降耗的實現(xiàn)原理。他首先介紹了市面上常見的芯片系統(tǒng)的頻率特點:這些芯片中常常會提到CPU主頻這一技術(shù)參數(shù),例如5GHz。這一數(shù)字代指其同步時鐘的頻率,即該芯片內(nèi)部所有的邏輯門、存儲都在這一頻率下運轉(zhuǎn),或者在此基礎(chǔ)上做一定的降級。例如總線可能比CPU主頻低一些,I/O接口頻率又比總線頻率更低一些,但整體來說,同一芯片中所有的組件,都由同步的時鐘驅(qū)動,使得芯片中所有的部件同時工作。這樣一來,所有部件的耗能也是同步進行的。
宋繼強說,英特爾所做的神經(jīng)擬態(tài)計算取消了同步時鐘的概念,采用的是“時間步”(Time Step)的概念,即一項任務(wù)完成后,組成計算系統(tǒng)的“神經(jīng)元”,會按照既定安排一步一步向后推進。在一個時間步內(nèi),信號會從一個神經(jīng)元傳遞到下一個神經(jīng)元,以這樣的方式傳遞、擴散。神經(jīng)擬態(tài)計算對系統(tǒng)“時間”統(tǒng)一性的要求是在時間步的層面上達到同步,但并不要求所有的神經(jīng)元在所有的工作序列中都要實現(xiàn)完全同步,允許有的任務(wù)處理得快、有的任務(wù)處理得慢。就像人腦,一部分神經(jīng)元處理嗅覺信息時,另一部分神經(jīng)元正在處理視覺信息。這樣一來,一個神經(jīng)擬態(tài)計算系統(tǒng)中,有任務(wù)發(fā)生的路徑是耗電的,其他路徑是休眠的。即便是大規(guī)模的神經(jīng)擬態(tài)集群,其工作時神經(jīng)元也只是稀疏地做并行運算。
該計算系統(tǒng)另一項節(jié)約能耗的方式在于其存算一體的結(jié)構(gòu)。當(dāng)前市面上計算系統(tǒng)的能耗,分布在兩大領(lǐng)域,一個是計算,另一個就是數(shù)據(jù)傳輸。而神經(jīng)擬態(tài)計算系統(tǒng)實現(xiàn)了存算一體,從而避免了傳統(tǒng)核內(nèi)外架構(gòu)在處理大量數(shù)據(jù)傳輸時存在的能量損耗。
節(jié)能與否,要看場景
低能耗被認為是神經(jīng)擬態(tài)處理器的固有架構(gòu)優(yōu)勢。2020年,宋繼強就曾公開表示:神經(jīng)擬態(tài)計算在算法以及芯片的設(shè)計上,可以實現(xiàn)以千分之一以內(nèi)的功耗完成同樣效果的模型訓(xùn)練。浙江大學(xué)的唐華錦教授也認為神經(jīng)擬態(tài)芯片是一種環(huán)境友好型的芯片,并認為這種類型的芯片體積小、功耗低,符合生物進化最本質(zhì)的優(yōu)勢。
但從Hala Point最新實踐結(jié)果來看,該類型架構(gòu)處理器節(jié)能與否,與其使用的場景有很大的關(guān)聯(lián)。宋繼強介紹稱,當(dāng)前發(fā)現(xiàn)該系統(tǒng)在處理用于物流調(diào)度數(shù)據(jù)中心的大規(guī)模優(yōu)化任務(wù)時能效表現(xiàn)最佳,相較CPU+GPU的組合方案節(jié)能了3000倍。
“但這不是指數(shù)據(jù)中心中所有的工作負載,只是極個別的幾項?!彼卫^強說,“我們正在尋找該系統(tǒng)適合的場景,如果給它不適合的任務(wù),耗能可能相較原有的處理系統(tǒng)更高?!?/p>
關(guān)于HalaPoint是否解決當(dāng)前大模型訓(xùn)練中面臨的高能耗問題,宋繼強給出的回應(yīng)是:該系統(tǒng)的設(shè)計本身不是直接面向大模型的,并不適合大規(guī)模的數(shù)據(jù)輸入。
ResNet50網(wǎng)絡(luò)(殘差網(wǎng)絡(luò)的一種)是當(dāng)前能證實Hala Point有降低能耗作用的場景之一,對于此類應(yīng)用場景,經(jīng)過調(diào)優(yōu)的Hala Point在達到同等性能的情況下,可以將能耗降低到原有方案的1/100以下。對于某些特定深度的神經(jīng)網(wǎng)絡(luò),例如視覺識別類應(yīng)用,經(jīng)過在脈沖神經(jīng)網(wǎng)絡(luò)上的一些調(diào)優(yōu),輔以硬件層面的適配,也能夠降低能耗。
從適應(yīng)的場景整體來看,該系統(tǒng)在稀疏性局部并發(fā)型應(yīng)用中的表現(xiàn)更好。目前,市面上大量神經(jīng)擬態(tài)處理器的主要應(yīng)用場景在于機器人、無人機。宋繼強說,HalaPoint有一半的應(yīng)用是跟機器人、操控、多模態(tài)視覺掛鉤的。