IDC 預計,2019 年全球智能家居設備市場出貨量將達到 8.327 億臺,將同比增長 26.9%。蛋糕之大讓業(yè)界一片歡騰,尤其是進入門檻較低的語音識別應用市場,吸引了眾多 AI 創(chuàng)業(yè)公司的目光,市面上出現(xiàn)了多款針對語音識別的 AI 芯片,其中不乏思必馳、云之聲等算法廠商,還有出門問問、若琪等終端廠商,語音 AI 芯片市場的競爭變得異常激烈。
近期,探境科技也推出了具有 AI 雙麥降噪功能的語音識別方案,即 Voitist 音旋風 612。可能很多人對探境科技并不是熟悉,其實這并不是一家新的 AI 公司,而是在 2017 年就已經(jīng)成立,只是公司初期在埋頭研發(fā),因此很少出現(xiàn)在公眾的視野中。據(jù)其技術副總裁李同治介紹,“公司創(chuàng)始人魯勇曾經(jīng)在全球著名半導體公司 Marvell 擔任研發(fā)高管,研發(fā)團隊有著給蘋果、三星、希捷、西數(shù)、特斯拉等國際頂級公司量產(chǎn)芯片供貨的經(jīng)驗,公司的目標是為客戶提供終端人工智能芯片及整體解決方案。如今,公司在北京、上海、深圳、杭州、合肥及美國硅谷都設立了研發(fā)基地,目前公司員工近 200 人,其中技術研發(fā)人員 150 人,平均研發(fā)經(jīng)驗在 15 年以上?!?/p>
在今年的 7 月份,探境科技就推出了首款 AI 語音識別芯片音旋風 611,并且已經(jīng)量產(chǎn),李同治介紹,“音旋風 611 支持多達 200 條命令詞,能夠覆蓋家庭生活場景中幾乎所有常見的語音控制命令;在識別率方面,不低于 99%的喚醒率,超過 97%的識別率,以及低于 24 小時 1 次的誤喚醒率。適用于各種需要語音進行控制的應用場景,芯片內(nèi)嵌領先的 NPU 架構,配合單麥克風即可實現(xiàn) 5-10m 遠距離的語音識別,識別延遲小于 0.2 秒,不需要依賴云和網(wǎng)絡,可在本地完成推理運算,音旋風 612 是 611 的升級版?!?/p>
AI 公司以技術取勝才能走得更遠,探境科技能夠推出這樣的產(chǎn)品也全依賴于技術驅(qū)動。AI 應用需要軟件和硬件共同實現(xiàn),市面上的很多公司要么單獨做算法,要么單獨做硬件,這就容易出現(xiàn)軟件和硬件匹配困難的問題,探境科技是在軟件和硬件兩方面同時研發(fā),從而實現(xiàn)軟硬件融合,包括芯片設計、結(jié)構框架、系統(tǒng)、算法等全部自主研發(fā)。在發(fā)布會上,探境科技負責人從硬件方面介紹了公司的獨特技術存儲優(yōu)先架構,從軟件方面分析了公司的三大黑科技。
“殺手锏”:存儲優(yōu)先架構
傳統(tǒng)的處理器一般都采用馮·諾伊曼體系結(jié)構,計算單元和存儲單元相互獨立,每次運算計算單元將數(shù)據(jù)從存儲單元中提取出來,處理完成后再寫回存儲單元中。近年來,處理器性能飛速提升,但是訪問存儲器的速度并沒有相應的提升,所以訪問存儲器的速度無法跟上處理器消耗數(shù)據(jù)的速度,導致處理器的計算性能無法充分發(fā)揮出來,這就出現(xiàn)“存儲墻”問題。
為了解決“存儲墻”問題,探境科技推出了存儲優(yōu)先架構(即SFA架構),這是一種不同的技術路線。探境科技創(chuàng)始人魯勇解釋,所有深度學習算法和 AI 芯片都面臨一個問題,它們并不是要做卷積運算的乘法或加法,這并不是最難解決的問題,難點是在于有很多數(shù)據(jù)在重復使用,數(shù)據(jù)在存儲器里的位置、相對關系、讀取的性能會影響到算法運行的性能。而且數(shù)據(jù)的存儲帶寬要求很大,存儲功耗很高。傳統(tǒng)上的解決方式不考慮存儲墻的問題,暴力增加存儲單元,成本很高。我們用一種獨特的芯片架構來推翻馮諾依曼體系架構,把數(shù)據(jù)讀取的次數(shù)降低,降低數(shù)據(jù)的冗余,從而降低帶寬的需求,通過算法和調(diào)度數(shù)據(jù)的方式,改進數(shù)據(jù)管理,在硬件上控制數(shù)據(jù)流,降低數(shù)據(jù)重復使用,通過軟件和硬件結(jié)合,在芯片上降低資源的鏈接復雜度,這種架構我們稱為存儲優(yōu)先架構,其實我們改善的是芯片本身的原因?!?/p>
從效果來看,魯勇強調(diào),“這種方法可以帶來超高的能效比,數(shù)據(jù)訪問可降低 10-100 倍,存儲子系統(tǒng)功耗下降 10 倍以上,28nm 工藝系統(tǒng)能效超過 4T Ops/W。”
魯勇將 SFA 架構稱為真正符合商業(yè)應用的 AI 芯片架構,因為其采用成熟的設計方案,無需對底層器件進行修改設計,可以走商業(yè)化路徑;通用性高,芯片面向的場景眾多,必須支持多種算法才可以被商業(yè)化;同時易用性高,用戶學習成本低,模型移植簡單。
需要指出的是,一般 AI 芯片只針對某一神經(jīng)網(wǎng)絡進行運算,SFA 架構支持任何神經(jīng)網(wǎng)絡,而且可以調(diào)整參數(shù)。
存儲優(yōu)先算法既然如此高效,為什么其它 AI 公司沒有開發(fā)?魯勇的解釋是,這是一項有技術門檻的技術,不僅在技術上需要要懂數(shù)學原理、架構、數(shù)據(jù)管理知識,同時需要有豐富的芯片設計經(jīng)驗,綜合起來才能做到高效率,這些都是探境科技所具備的。
如果說存儲優(yōu)先架構是探境科技在硬件上實現(xiàn)的優(yōu)化,軟件上又做了哪些工作?李同治向我們做了詳細介紹。
三大“黑科技”加身,出貨量過百萬
李同治將探境科技在軟件上的創(chuàng)新歸結(jié)為三大“黑科技”,分別是 AI 降噪算法、高計算強度神經(jīng)網(wǎng)絡 HONN、基于 FCSP 的端到端 AI 雙麥算法。
黑科技之一:AI降噪算法
目前在智能家居應用中,語音識別面臨環(huán)境噪雜或者距離遠,從而導致識別不清的難題,智能家居設備廠家急需一種能夠準確過濾噪音,并提取目標聲源的方案。
在語音識別技術中,信噪比是衡量識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低,識別難度越大。在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結(jié)果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。
探境科技自研了 AI 降噪算法基于深度學習,不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能快速過濾。為了驗證探境 AI 降噪算法的有效性,技術人員將一批信噪比在 3dB 左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試,降噪后比降噪前提高 30%識別準確率。
黑科技之二:高計算強度神經(jīng)網(wǎng)絡HONN
在對聲音進行降噪處理之后,就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中,神經(jīng)網(wǎng)絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。在傳統(tǒng)的語音識別算法里,國內(nèi)很多語音識別芯片都采用了全連接操作 DNN 技術。但是相對全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質(zhì)特征。
探境將其計算機視覺中的一些經(jīng)驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經(jīng)網(wǎng)絡,即 HONN(High Operation Neural Network)。
李同治解釋,“對比發(fā)現(xiàn),HONN 僅需要 350k 的存儲空間,而 DNN 需要 1.6M 的存儲空間,更低的存儲需求意味著成本更低。同時 DNN 與 HONN 所需的算力相反,處理高強度模型單幀時,HONN 需要超過幾百兆 OPS,而一般的 DNN 模型僅為個位數(shù)的算力,兩者相差超過 30 倍。對于神經(jīng)網(wǎng)絡來說,模型所需的算力決定了模型識別率的上限。相對安靜的環(huán)境下兩者之間差別不大,但是當信噪比進一步降低時,基于 HONN 的方法識別優(yōu)勢非常明顯。”
在實際測試中,在抽油煙機的噪音中(大約 70 分貝),HONN 方式下的識別信噪比約為 3~5dB,單燈模型的識別效果非常準確。
黑科技之三:基于FCSP的端到端AI雙麥算法
信噪比還有一種更嚴苛的情況,就是 0dB 和負 dB,0dB 意味著噪聲和信號強度一樣,甚至噪聲比語音信號還要強,面對這種應用場景,探境科技采用了基于 FCSP 的端到端 AI 雙麥算法。
傳統(tǒng)的麥克風陣列處理算法有幾大缺點,從而造成處理效果并不理想?!盀榱丝朔鹘y(tǒng)處理方式的缺點,我們設計出了基于 FCSP 的端到端 AI 雙麥算法?!崩钔螌τ浾弑硎尽癋CSP(Frequency Complex Subspace Projection)是我們自研的頻域復數(shù)子空間投影算法的簡稱,這個算法直接輸入陣列信號,輸出的是最終的識別結(jié)果,中間部分全部交給基于深度學習的 AI 算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化,避免了語音增強與語音識別模塊錯配的問題?!?/p>
另外,在模型訓練期間,采取了“注意力增強”的學習方法,能夠靈敏的檢測到喚醒詞和命令詞,即使干擾信號與目標信號方向接近,也能靈敏的進行喚醒和識別。李同治做了一個形象的比喻,“這個類似于在一個嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應過來?!?/p>
李同治強調(diào),“我們采取了頻域復數(shù)子空間投影,抗噪性能強,在信噪比為 0dB 時,相對于傳統(tǒng)的處理算法,相對識別錯誤率降低超過 20%。”
通過 AI 語音算法+HONN 神經(jīng)網(wǎng)絡模型來提升識別率,再通過 FCSP“端到端”的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實現(xiàn)了跨越式的升級,加上通過存儲優(yōu)先架構打造的 AI 芯片,探境科技可以為客戶提供芯片、算法俱全的 Turn-key 方案。
除了支持 AI 雙麥的 Voitist 音旋風 612 之外,還包括在離線一體的 Voitist 音旋風 621、以及語音芯片的旗艦產(chǎn)品——可支持本地 NLP 的音旋風 7 系列。探境目前擁有約 30 家合作伙伴,既有美的、海爾等智能家居制造大廠,也有世強科技在垂直領域頗具影響力的渠道商,知名智能家居制造商阿凡達智控也剛剛與探境達成合作,目前,探境科技的產(chǎn)品出貨量已達百萬級別。
未來規(guī)劃:從語音到圖像,離線在線一體方案已在路上
近兩年,邊緣計算大熱,隨著數(shù)據(jù)量不斷增大,云端的承載壓力越來越大,因此終端客戶尋求在邊緣完成部分數(shù)據(jù)處理,從而分擔云端的壓力。尤其在 AI 領域,未來對延遲和帶寬提出更苛刻的要求,探境科技也認為,真正的人工智能應用場景,是不需要借助云端服務等做遠程支持的,只有將人工智能做到終端上來,讓每個設備都具備人工智能,才是現(xiàn)階段“人工智能”的進化。
目前廠商多采用在線方案,就是打一個數(shù)據(jù)包放到云端,而離線方案是語音識別算法在本地,音樂等播放內(nèi)容還是放在云端。據(jù)魯勇透露,未來探境還會將語音產(chǎn)品進行二次升級,推出更多在線離線一體化方案。探境科技采用 HONN 神經(jīng)網(wǎng)絡模型,意味著處理模型變小,放在邊緣的存儲容量變小,成本也隨之降低。關于用戶對在線方案和離在線一起方案的選擇,魯勇表示,離線在線一體方案和在線方案兩種會共存,畢竟用戶的想法不同,選擇也不同。
關于產(chǎn)品規(guī)劃,魯勇還表示,“探境不僅僅是一個語音芯片公司,而是一家語音、圖像整體結(jié)合的 AI 芯片公司。除了語言市場之外,我們還看好工業(yè)視覺、新零售、安防、輔助駕駛等市場。我們的圖像芯片在 2019 年 Q4 就已經(jīng)流片成功,在某些應用中已經(jīng)開始產(chǎn)生營收。AI 芯片的蛋糕非常大,探境希望可以聯(lián)合上下游一起,開發(fā)生態(tài),開放 SDK 和工具鏈,不僅是大家可以直接使用我們的產(chǎn)品,我們也希望有大量的合作伙伴,完成更多的場景開發(fā)?!?/p>
魯勇認為,AI 芯片這一領域不像手機 APP 那樣,瞬間可以憑一款應用獲得數(shù)百萬的用戶,AI 芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。探境作為創(chuàng)業(yè)公司,雖然進入市場比較晚,但是這也是一個拐點期,市場教育工作已經(jīng)完成,后面市場競爭還是看核心技術,我們的優(yōu)勢在于軟件和硬件都自主研發(fā),因此算法移植非??欤覀儗闹悄芗揖宇I域開始,先打好地基,再逐漸加碼,等待市場大潮的到來。