在評(píng)估AI硬件時(shí),規(guī)格競(jìng)賽(能效、性能和對(duì)各種算法的支持)絕對(duì)是重要的。但是,當(dāng)系統(tǒng)公司把在GPU上開(kāi)發(fā)的AI模型移植到其他類型的硬件時(shí)發(fā)生的精度損失怎么處理呢?這就是DeepX的特色。
上周,AI芯片初創(chuàng)公司DeepX的創(chuàng)始人Lokwon Kim,在加州Santa Clara的展會(huì)上推出了一系列AI加速器。Kim聲稱,這些芯片將實(shí)現(xiàn)“無(wú)處不在的AI,人人可用的AI?!?/p>
Kim選擇了嵌入式視覺(jué)峰會(huì)作為他的首次公開(kāi)亮相。需明確的是,DeepX是一個(gè)剛加入這個(gè)擁擠賽道的初創(chuàng)公司。然而,DeepX在韓國(guó)卻有著深厚的根基。通過(guò)向韓國(guó)政府積極地營(yíng)銷,Kim已經(jīng)把DeepX在AI領(lǐng)域的研發(fā)變成了一個(gè)國(guó)家項(xiàng)目。
DeepX從政府那里籌集了4000萬(wàn)美元,還在韓國(guó)的風(fēng)投圈中籌集了2000萬(wàn)美元。根據(jù)Kim的說(shuō)法,今年晚些時(shí)候?qū)⒂?jì)劃進(jìn)行B輪融資。
DeepX正在推出一系列用于邊緣設(shè)備嵌入式視覺(jué)產(chǎn)品的AI加速器。它還開(kāi)發(fā)了包括編譯器和運(yùn)行時(shí)在內(nèi)的軟件開(kāi)發(fā)套件DXNN。DeepX認(rèn)為DXNN是其皇冠上的明珠。
據(jù)報(bào)道,DXNN可以簡(jiǎn)化深度學(xué)習(xí)模型部署到DeepX的AI SoC的過(guò)程。其編譯器提供了高性能量化、模型優(yōu)化和NPU推理編譯的工具。其運(yùn)行時(shí)包括NPU設(shè)備驅(qū)動(dòng)程序、帶有API的運(yùn)行時(shí)和NPU固件。
最重要的是,該公司聲稱,DXNN支持“以浮點(diǎn)格式訓(xùn)練的DNN模型的自動(dòng)量化”。
DeepX并沒(méi)有憑空創(chuàng)造出其AI硬件架構(gòu)。Kim說(shuō),自2016年創(chuàng)立公司以來(lái),“我們實(shí)際上已經(jīng)與數(shù)百家全球公司坐下來(lái)進(jìn)行了面談。”
Kim觀察到,“可擴(kuò)展性、AI精度以及功率/性能效率”是邊緣AI系統(tǒng)開(kāi)發(fā)者一直在苦苦掙扎的三個(gè)領(lǐng)域。DeepX的目標(biāo)是在其AI加速器上實(shí)現(xiàn)GPU級(jí)的AI精度,同時(shí)提供高吞吐量和低功耗。
DeepX的源起
在DeepX之前,Kim是Apple的AP的首席設(shè)計(jì)師,參與開(kāi)發(fā)了A10、A11 Bionic和A12 Bionic。
Kim創(chuàng)辦DeepX的靈感來(lái)源于他2010年在IBM的T.J. Watson研究中心做訪問(wèn)學(xué)者的經(jīng)歷。他當(dāng)時(shí)的工作是開(kāi)發(fā)深度學(xué)習(xí)MPU,這是DARPA指派給IBM的一個(gè)項(xiàng)目。
當(dāng)時(shí)Kim是UCLA的博士生,自那以后,他一直沉迷于在MPU上運(yùn)行DNN的想法。
即使在加入Apple后,Kim也一直堅(jiān)持著自己的AI創(chuàng)業(yè)夢(mèng)想?!拔覍?shí)際上已經(jīng)把我的想法帶給了Apple的高層管理人員?!彼麄兙芙^了,于是Kim結(jié)束了在Apple的工作,并返回韓國(guó)。
Kim表示,他非常敬仰張忠謀。半導(dǎo)體行業(yè)對(duì)張忠謀的貢獻(xiàn)有很大的感激之情。張忠謀離開(kāi)美國(guó),在中國(guó)臺(tái)灣創(chuàng)辦了TSMC。這個(gè)起初并不被看好的企業(yè)最終成為了全球最大的代工巨頭。
Kim說(shuō),TSMC對(duì)中國(guó)臺(tái)灣的重要性(無(wú)論是經(jīng)濟(jì)上還是政治上)已不言而喻。通過(guò)利用AI的力量,Kim希望在他的祖國(guó)取得類似的重要地位。
這是一個(gè)大膽的說(shuō)法。但是Kim的想法反映了這個(gè)時(shí)代。無(wú)論是好是壞,地緣政治已經(jīng)成為先進(jìn)半導(dǎo)體發(fā)展的內(nèi)在因素。
戰(zhàn)略
DeepX設(shè)計(jì)了同屬一系列的四款A(yù)I加速器,所有的焦點(diǎn)都集中在視覺(jué)應(yīng)用上。其策略是為多個(gè)邊緣視覺(jué)AI領(lǐng)域提供可擴(kuò)展的解決方案。
DX-L1,適用于IP攝像頭、車內(nèi)監(jiān)控、機(jī)器人攝像頭和無(wú)人機(jī)等攝像頭應(yīng)用。
DX-L1包含四核RISC-V、ISP、MIPI和視頻編碼器,提供12 eTOPS的AI性能。Kim指的eTOPS是“相當(dāng)于GPU的TOPS的性能度量標(biāo)準(zhǔn)”。
DX-L2支持3-4個(gè)攝像頭的邊緣AI視覺(jué)系統(tǒng),提供38 eTOPS。
DX-M1,配備了雙核ARM核和ISP,支持10個(gè)攝像頭,提供200 eTOPS。
DX-H1,提供1600 eTOPS,將以PCIe卡的形式生產(chǎn),可以部署在能夠執(zhí)行大規(guī)模AI操作的邊緣服務(wù)器中。通過(guò)支持10,000個(gè)攝像頭,DX-H1可以服務(wù)于安裝了大量監(jiān)控?cái)z像頭的工廠。
H1具有與M1類似的雙核ARM核和ISP模塊。
所有四種芯片都由三星代工,其中L1和L2采用28nm制程。M1是14nm,H1則使用5nm工藝。價(jià)格范圍從10美元(L1)、20美元(L2)到50美元(M1)和1500美元(H1)不等。
準(zhǔn)確性
除了提供低功耗和性能效率外,DeepX還將資源集中在量化工作上,以保證GPU級(jí)的準(zhǔn)確性。
基于自身經(jīng)驗(yàn),DeepX專注于解決準(zhǔn)確性降低的問(wèn)題上。Kim指出,將原本在浮點(diǎn)格式GPU上訓(xùn)練的AI模型移植到其它硬件上,都會(huì)導(dǎo)致準(zhǔn)確性降低。
因此,DeepX的團(tuán)隊(duì)尋找了每個(gè)數(shù)據(jù)路徑中準(zhǔn)確性降低的點(diǎn)。結(jié)果就是DeepX在其SDK,即DXNN中稱之為“世界頂級(jí)的量化器”。
市場(chǎng)細(xì)分
過(guò)去幾年中,許多AI硬件創(chuàng)業(yè)公司被汽車行業(yè)所誘惑,夢(mèng)想著他們的AI芯片將成為下一代車輛平臺(tái)的計(jì)算機(jī)大腦。
相反,Kim得出的結(jié)論是,對(duì)于一家初創(chuàng)公司來(lái)說(shuō),向車廠銷售AI芯片是一個(gè)糟糕的選擇。因?yàn)?a class="article-link" target="_blank" href="/tag/%E6%B1%BD%E8%BD%A6%E8%8A%AF%E7%89%87/">汽車芯片需要經(jīng)過(guò)漫長(zhǎng)的驗(yàn)證時(shí)間,ASIL B和C等認(rèn)證作業(yè)增加了很多困難。即使解決了這些障礙,芯片銷量也微乎其微。
相反,Kim的策略是與車廠合作,為DeepX MPU授權(quán)IP,包括軟件。Kim解釋說(shuō),DeepX一直被OEM忽視,現(xiàn)在卻開(kāi)始收到OEM要求評(píng)估DeepX芯片的請(qǐng)求。
這可能意味著兩件事。
首先,許多歐洲車廠向Kim暗示,他們對(duì)下一代車輛平臺(tái)仍未做出決定。
其次,一些領(lǐng)先的車廠已經(jīng)投入資源使用Nvidia的GPU開(kāi)發(fā)自己的AI模型。但現(xiàn)在,當(dāng)他們將模型移植到其他硬件上時(shí),準(zhǔn)確性降低問(wèn)題正在出現(xiàn)。這迫使他們重新尋找另一種AI硬件解決方案。
Kim表示,DeepX只會(huì)為車廠提供IP授權(quán)。對(duì)于其他應(yīng)用領(lǐng)域,其業(yè)務(wù)模式則是直接銷售芯片。
Kim表示,DeepX的AI芯片的最佳應(yīng)用場(chǎng)景是機(jī)器人,無(wú)論是配送機(jī)器人還是在工廠內(nèi)作業(yè)的機(jī)器人。
Nvidia顯然已經(jīng)通過(guò)GPU贏得了AI市場(chǎng)。然而,AI競(jìng)賽的下一章或許在于如何將在GPU上訓(xùn)練的AI模型有效地移植到非GPU硬件上。