IDC 預(yù)計(jì),2019 年全球智能家居設(shè)備市場出貨量將達(dá)到 8.327 億臺(tái),將同比增長 26.9%。蛋糕之大讓業(yè)界一片歡騰,尤其是進(jìn)入門檻較低的語音識(shí)別應(yīng)用市場,吸引了眾多 AI 創(chuàng)業(yè)公司的目光,市面上出現(xiàn)了多款針對(duì)語音識(shí)別的 AI 芯片,其中不乏思必馳、云之聲等算法廠商,還有出門問問、若琪等終端廠商,語音 AI 芯片市場的競爭變得異常激烈。
近期,探境科技也推出了具有 AI 雙麥降噪功能的語音識(shí)別方案,即 Voitist 音旋風(fēng) 612??赡芎芏嗳藢?duì)探境科技并不是熟悉,其實(shí)這并不是一家新的 AI 公司,而是在 2017 年就已經(jīng)成立,只是公司初期在埋頭研發(fā),因此很少出現(xiàn)在公眾的視野中。據(jù)其技術(shù)副總裁李同治介紹,“公司創(chuàng)始人魯勇曾經(jīng)在全球著名半導(dǎo)體公司 Marvell 擔(dān)任研發(fā)高管,研發(fā)團(tuán)隊(duì)有著給蘋果、三星、希捷、西數(shù)、特斯拉等國際頂級(jí)公司量產(chǎn)芯片供貨的經(jīng)驗(yàn),公司的目標(biāo)是為客戶提供終端人工智能芯片及整體解決方案。如今,公司在北京、上海、深圳、杭州、合肥及美國硅谷都設(shè)立了研發(fā)基地,目前公司員工近 200 人,其中技術(shù)研發(fā)人員 150 人,平均研發(fā)經(jīng)驗(yàn)在 15 年以上?!?/p>
在今年的 7 月份,探境科技就推出了首款 AI 語音識(shí)別芯片音旋風(fēng) 611,并且已經(jīng)量產(chǎn),李同治介紹,“音旋風(fēng) 611 支持多達(dá) 200 條命令詞,能夠覆蓋家庭生活場景中幾乎所有常見的語音控制命令;在識(shí)別率方面,不低于 99%的喚醒率,超過 97%的識(shí)別率,以及低于 24 小時(shí) 1 次的誤喚醒率。適用于各種需要語音進(jìn)行控制的應(yīng)用場景,芯片內(nèi)嵌領(lǐng)先的 NPU 架構(gòu),配合單麥克風(fēng)即可實(shí)現(xiàn) 5-10m 遠(yuǎn)距離的語音識(shí)別,識(shí)別延遲小于 0.2 秒,不需要依賴云和網(wǎng)絡(luò),可在本地完成推理運(yùn)算,音旋風(fēng) 612 是 611 的升級(jí)版?!?/p>
AI 公司以技術(shù)取勝才能走得更遠(yuǎn),探境科技能夠推出這樣的產(chǎn)品也全依賴于技術(shù)驅(qū)動(dòng)。AI 應(yīng)用需要軟件和硬件共同實(shí)現(xiàn),市面上的很多公司要么單獨(dú)做算法,要么單獨(dú)做硬件,這就容易出現(xiàn)軟件和硬件匹配困難的問題,探境科技是在軟件和硬件兩方面同時(shí)研發(fā),從而實(shí)現(xiàn)軟硬件融合,包括芯片設(shè)計(jì)、結(jié)構(gòu)框架、系統(tǒng)、算法等全部自主研發(fā)。在發(fā)布會(huì)上,探境科技負(fù)責(zé)人從硬件方面介紹了公司的獨(dú)特技術(shù)存儲(chǔ)優(yōu)先架構(gòu),從軟件方面分析了公司的三大黑科技。
“殺手锏”:存儲(chǔ)優(yōu)先架構(gòu)
傳統(tǒng)的處理器一般都采用馮·諾伊曼體系結(jié)構(gòu),計(jì)算單元和存儲(chǔ)單元相互獨(dú)立,每次運(yùn)算計(jì)算單元將數(shù)據(jù)從存儲(chǔ)單元中提取出來,處理完成后再寫回存儲(chǔ)單元中。近年來,處理器性能飛速提升,但是訪問存儲(chǔ)器的速度并沒有相應(yīng)的提升,所以訪問存儲(chǔ)器的速度無法跟上處理器消耗數(shù)據(jù)的速度,導(dǎo)致處理器的計(jì)算性能無法充分發(fā)揮出來,這就出現(xiàn)“存儲(chǔ)墻”問題。
為了解決“存儲(chǔ)墻”問題,探境科技推出了存儲(chǔ)優(yōu)先架構(gòu)(即SFA架構(gòu)),這是一種不同的技術(shù)路線。探境科技創(chuàng)始人魯勇解釋,所有深度學(xué)習(xí)算法和 AI 芯片都面臨一個(gè)問題,它們并不是要做卷積運(yùn)算的乘法或加法,這并不是最難解決的問題,難點(diǎn)是在于有很多數(shù)據(jù)在重復(fù)使用,數(shù)據(jù)在存儲(chǔ)器里的位置、相對(duì)關(guān)系、讀取的性能會(huì)影響到算法運(yùn)行的性能。而且數(shù)據(jù)的存儲(chǔ)帶寬要求很大,存儲(chǔ)功耗很高。傳統(tǒng)上的解決方式不考慮存儲(chǔ)墻的問題,暴力增加存儲(chǔ)單元,成本很高。我們用一種獨(dú)特的芯片架構(gòu)來推翻馮諾依曼體系架構(gòu),把數(shù)據(jù)讀取的次數(shù)降低,降低數(shù)據(jù)的冗余,從而降低帶寬的需求,通過算法和調(diào)度數(shù)據(jù)的方式,改進(jìn)數(shù)據(jù)管理,在硬件上控制數(shù)據(jù)流,降低數(shù)據(jù)重復(fù)使用,通過軟件和硬件結(jié)合,在芯片上降低資源的鏈接復(fù)雜度,這種架構(gòu)我們稱為存儲(chǔ)優(yōu)先架構(gòu),其實(shí)我們改善的是芯片本身的原因?!?/p>
從效果來看,魯勇強(qiáng)調(diào),“這種方法可以帶來超高的能效比,數(shù)據(jù)訪問可降低 10-100 倍,存儲(chǔ)子系統(tǒng)功耗下降 10 倍以上,28nm 工藝系統(tǒng)能效超過 4T Ops/W?!?/p>
魯勇將 SFA 架構(gòu)稱為真正符合商業(yè)應(yīng)用的 AI 芯片架構(gòu),因?yàn)槠洳捎贸墒斓脑O(shè)計(jì)方案,無需對(duì)底層器件進(jìn)行修改設(shè)計(jì),可以走商業(yè)化路徑;通用性高,芯片面向的場景眾多,必須支持多種算法才可以被商業(yè)化;同時(shí)易用性高,用戶學(xué)習(xí)成本低,模型移植簡單。
需要指出的是,一般 AI 芯片只針對(duì)某一神經(jīng)網(wǎng)絡(luò)進(jìn)行運(yùn)算,SFA 架構(gòu)支持任何神經(jīng)網(wǎng)絡(luò),而且可以調(diào)整參數(shù)。
存儲(chǔ)優(yōu)先算法既然如此高效,為什么其它 AI 公司沒有開發(fā)?魯勇的解釋是,這是一項(xiàng)有技術(shù)門檻的技術(shù),不僅在技術(shù)上需要要懂?dāng)?shù)學(xué)原理、架構(gòu)、數(shù)據(jù)管理知識(shí),同時(shí)需要有豐富的芯片設(shè)計(jì)經(jīng)驗(yàn),綜合起來才能做到高效率,這些都是探境科技所具備的。
如果說存儲(chǔ)優(yōu)先架構(gòu)是探境科技在硬件上實(shí)現(xiàn)的優(yōu)化,軟件上又做了哪些工作?李同治向我們做了詳細(xì)介紹。
三大“黑科技”加身,出貨量過百萬
李同治將探境科技在軟件上的創(chuàng)新歸結(jié)為三大“黑科技”,分別是 AI 降噪算法、高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò) HONN、基于 FCSP 的端到端 AI 雙麥算法。
黑科技之一:AI降噪算法
目前在智能家居應(yīng)用中,語音識(shí)別面臨環(huán)境噪雜或者距離遠(yuǎn),從而導(dǎo)致識(shí)別不清的難題,智能家居設(shè)備廠家急需一種能夠準(zhǔn)確過濾噪音,并提取目標(biāo)聲源的方案。
在語音識(shí)別技術(shù)中,信噪比是衡量識(shí)別的目標(biāo)聲源與其它干擾聲源強(qiáng)度比值的對(duì)數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低,識(shí)別難度越大。在語音識(shí)別的研發(fā)過程中,一個(gè)完整的識(shí)別鏈路可以簡化為麥克風(fēng)輸入、降噪處理、語音識(shí)別、識(shí)別結(jié)果輸入四個(gè)環(huán)節(jié)。想做好識(shí)別,首先要在降噪處理上下功夫。
探境科技自研了 AI 降噪算法基于深度學(xué)習(xí),不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能快速過濾。為了驗(yàn)證探境 AI 降噪算法的有效性,技術(shù)人員將一批信噪比在 3dB 左右的語音數(shù)據(jù)送到一個(gè)知名的云端公開語音識(shí)別引擎做了測(cè)試,降噪后比降噪前提高 30%識(shí)別準(zhǔn)確率。
黑科技之二:高計(jì)算強(qiáng)度神經(jīng)網(wǎng)絡(luò)HONN
在對(duì)聲音進(jìn)行降噪處理之后,就進(jìn)入到了語音識(shí)別環(huán)節(jié)。在這一環(huán)節(jié)中,神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力,同時(shí)也決定了模型處理能力和識(shí)別率的上限。在傳統(tǒng)的語音識(shí)別算法里,國內(nèi)很多語音識(shí)別芯片都采用了全連接操作 DNN 技術(shù)。但是相對(duì)全連接操作,卷積操作能夠提供更高的計(jì)算強(qiáng)度,且卷積運(yùn)算與人類大腦負(fù)責(zé)感知模塊的處理方法類似,能夠提取滿足大腦認(rèn)知的本質(zhì)特征。
探境將其計(jì)算機(jī)視覺中的一些經(jīng)驗(yàn)遷移到語音識(shí)別中,在語音識(shí)別算法上加入了更多的卷積操作,重新設(shè)計(jì)了一個(gè)高計(jì)算強(qiáng)度的神經(jīng)網(wǎng)絡(luò),即 HONN(High Operation Neural Network)。
李同治解釋,“對(duì)比發(fā)現(xiàn),HONN 僅需要 350k 的存儲(chǔ)空間,而 DNN 需要 1.6M 的存儲(chǔ)空間,更低的存儲(chǔ)需求意味著成本更低。同時(shí) DNN 與 HONN 所需的算力相反,處理高強(qiáng)度模型單幀時(shí),HONN 需要超過幾百兆 OPS,而一般的 DNN 模型僅為個(gè)位數(shù)的算力,兩者相差超過 30 倍。對(duì)于神經(jīng)網(wǎng)絡(luò)來說,模型所需的算力決定了模型識(shí)別率的上限。相對(duì)安靜的環(huán)境下兩者之間差別不大,但是當(dāng)信噪比進(jìn)一步降低時(shí),基于 HONN 的方法識(shí)別優(yōu)勢(shì)非常明顯?!?/p>
在實(shí)際測(cè)試中,在抽油煙機(jī)的噪音中(大約 70 分貝),HONN 方式下的識(shí)別信噪比約為 3~5dB,單燈模型的識(shí)別效果非常準(zhǔn)確。
黑科技之三:基于FCSP的端到端AI雙麥算法
信噪比還有一種更嚴(yán)苛的情況,就是 0dB 和負(fù) dB,0dB 意味著噪聲和信號(hào)強(qiáng)度一樣,甚至噪聲比語音信號(hào)還要強(qiáng),面對(duì)這種應(yīng)用場景,探境科技采用了基于 FCSP 的端到端 AI 雙麥算法。
傳統(tǒng)的麥克風(fēng)陣列處理算法有幾大缺點(diǎn),從而造成處理效果并不理想?!盀榱丝朔鹘y(tǒng)處理方式的缺點(diǎn),我們?cè)O(shè)計(jì)出了基于 FCSP 的端到端 AI 雙麥算法?!崩钔螌?duì)記者表示“FCSP(Frequency Complex Subspace Projection)是我們自研的頻域復(fù)數(shù)子空間投影算法的簡稱,這個(gè)算法直接輸入陣列信號(hào),輸出的是最終的識(shí)別結(jié)果,中間部分全部交給基于深度學(xué)習(xí)的 AI 算法來處理,不再使用傳統(tǒng)的數(shù)字信號(hào)處理方法。信號(hào)增強(qiáng)與識(shí)別模塊整體以降低識(shí)別錯(cuò)誤率為目標(biāo)進(jìn)行優(yōu)化,避免了語音增強(qiáng)與語音識(shí)別模塊錯(cuò)配的問題?!?/p>
另外,在模型訓(xùn)練期間,采取了“注意力增強(qiáng)”的學(xué)習(xí)方法,能夠靈敏的檢測(cè)到喚醒詞和命令詞,即使干擾信號(hào)與目標(biāo)信號(hào)方向接近,也能靈敏的進(jìn)行喚醒和識(shí)別。李同治做了一個(gè)形象的比喻,“這個(gè)類似于在一個(gè)嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應(yīng)過來?!?/p>
李同治強(qiáng)調(diào),“我們采取了頻域復(fù)數(shù)子空間投影,抗噪性能強(qiáng),在信噪比為 0dB 時(shí),相對(duì)于傳統(tǒng)的處理算法,相對(duì)識(shí)別錯(cuò)誤率降低超過 20%?!?/p>
通過 AI 語音算法+HONN 神經(jīng)網(wǎng)絡(luò)模型來提升識(shí)別率,再通過 FCSP“端到端”的雙麥處理算法簡化識(shí)別流程,降低最終識(shí)別錯(cuò)誤率,探境的語音算法實(shí)現(xiàn)了跨越式的升級(jí),加上通過存儲(chǔ)優(yōu)先架構(gòu)打造的 AI 芯片,探境科技可以為客戶提供芯片、算法俱全的 Turn-key 方案。
除了支持 AI 雙麥的 Voitist 音旋風(fēng) 612 之外,還包括在離線一體的 Voitist 音旋風(fēng) 621、以及語音芯片的旗艦產(chǎn)品——可支持本地 NLP 的音旋風(fēng) 7 系列。探境目前擁有約 30 家合作伙伴,既有美的、海爾等智能家居制造大廠,也有世強(qiáng)科技在垂直領(lǐng)域頗具影響力的渠道商,知名智能家居制造商阿凡達(dá)智控也剛剛與探境達(dá)成合作,目前,探境科技的產(chǎn)品出貨量已達(dá)百萬級(jí)別。
未來規(guī)劃:從語音到圖像,離線在線一體方案已在路上
近兩年,邊緣計(jì)算大熱,隨著數(shù)據(jù)量不斷增大,云端的承載壓力越來越大,因此終端客戶尋求在邊緣完成部分?jǐn)?shù)據(jù)處理,從而分擔(dān)云端的壓力。尤其在 AI 領(lǐng)域,未來對(duì)延遲和帶寬提出更苛刻的要求,探境科技也認(rèn)為,真正的人工智能應(yīng)用場景,是不需要借助云端服務(wù)等做遠(yuǎn)程支持的,只有將人工智能做到終端上來,讓每個(gè)設(shè)備都具備人工智能,才是現(xiàn)階段“人工智能”的進(jìn)化。
目前廠商多采用在線方案,就是打一個(gè)數(shù)據(jù)包放到云端,而離線方案是語音識(shí)別算法在本地,音樂等播放內(nèi)容還是放在云端。據(jù)魯勇透露,未來探境還會(huì)將語音產(chǎn)品進(jìn)行二次升級(jí),推出更多在線離線一體化方案。探境科技采用 HONN 神經(jīng)網(wǎng)絡(luò)模型,意味著處理模型變小,放在邊緣的存儲(chǔ)容量變小,成本也隨之降低。關(guān)于用戶對(duì)在線方案和離在線一起方案的選擇,魯勇表示,離線在線一體方案和在線方案兩種會(huì)共存,畢竟用戶的想法不同,選擇也不同。
關(guān)于產(chǎn)品規(guī)劃,魯勇還表示,“探境不僅僅是一個(gè)語音芯片公司,而是一家語音、圖像整體結(jié)合的 AI 芯片公司。除了語言市場之外,我們還看好工業(yè)視覺、新零售、安防、輔助駕駛等市場。我們的圖像芯片在 2019 年 Q4 就已經(jīng)流片成功,在某些應(yīng)用中已經(jīng)開始產(chǎn)生營收。AI 芯片的蛋糕非常大,探境希望可以聯(lián)合上下游一起,開發(fā)生態(tài),開放 SDK 和工具鏈,不僅是大家可以直接使用我們的產(chǎn)品,我們也希望有大量的合作伙伴,完成更多的場景開發(fā)?!?/p>
魯勇認(rèn)為,AI 芯片這一領(lǐng)域不像手機(jī) APP 那樣,瞬間可以憑一款應(yīng)用獲得數(shù)百萬的用戶,AI 芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達(dá)終點(diǎn),誰在中途不走岔路。探境作為創(chuàng)業(yè)公司,雖然進(jìn)入市場比較晚,但是這也是一個(gè)拐點(diǎn)期,市場教育工作已經(jīng)完成,后面市場競爭還是看核心技術(shù),我們的優(yōu)勢(shì)在于軟件和硬件都自主研發(fā),因此算法移植非???,我們將從智能家居領(lǐng)域開始,先打好地基,再逐漸加碼,等待市場大潮的到來。