“語音識(shí)別已經(jīng)有幾十年的歷史了,但是結(jié)合人工智能中的神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),為語音識(shí)別提供了可能。未來的語音識(shí)別可以直接與人對(duì)話,理解人的語言,能通過聲音來對(duì)智能產(chǎn)品進(jìn)行復(fù)雜交互,簡(jiǎn)化人機(jī)交互,繼眼睛(顯示屏)、手(觸摸屏)后,耳朵&嘴巴將成為下一代人機(jī)交互的主要形式。人機(jī)對(duì)話是革命性的東西,從簡(jiǎn)單家庭使用:開電視、切換頻道大小聲音、設(shè)定冷氣及任何家電的控制都可以做到,語音可以做身份識(shí)別,語音助手可以提供私人定制服務(wù)。甚至智能語音可以取代人類大部分服務(wù)業(yè)與窗口行業(yè),如一個(gè)餐館可以節(jié)省 90% 的人力,點(diǎn)餐加工送餐收款全部由人工智能完成?!?在智能語音被視作人工智能突破口的當(dāng)下,世平集團(tuán)資深技術(shù)總監(jiān)林建和認(rèn)為智能語音可創(chuàng)造無限可能。
世平集團(tuán)資深技術(shù)總監(jiān)林建和
?
除了智能音箱領(lǐng)域,語音識(shí)別與交互還可應(yīng)用于以下領(lǐng)域:
- 能家電的開關(guān)與操作(例如:WiFi 音箱、電視、燈,冰箱、電飯鍋、空氣凈化器)
- 家居管理(例如,智能照明、智能窗簾、智能床罩)
- 機(jī)器人(陪伴機(jī)器人、掃地機(jī)器人)
- 手機(jī)(例如撥電話給誰、傳簡(jiǎn)訊給誰、發(fā) e-mail 給誰、、撥放音樂、開啟 APP 等等)?
- 汽車信息娛樂系統(tǒng)(例如:導(dǎo)航, 簡(jiǎn)易功能的控制,播音樂、音量調(diào)整、撥打緊急電話、查詢路況與詢問路徑周邊設(shè)施等等
- 人類服務(wù)業(yè)與窗口行業(yè)
林建和先生認(rèn)為:智能語音在故事機(jī) /WiFi 音箱、車載語音識(shí)別,家電等會(huì)先落地。
理由在于:
語音識(shí)別距離較近,識(shí)別效果會(huì)比較好,且相較于主流的觸控型人機(jī)界面,語音交互具有先天優(yōu)勢(shì),可真切的滿足絕大多數(shù)人的互動(dòng)需求。
在被看好的高端智能音箱、機(jī)器人(人機(jī)交互)、家庭醫(yī)療、智能購(gòu)物等領(lǐng)域,仍需時(shí)日才可落地。主要由于這些領(lǐng)域?qū)φZ音技術(shù)及實(shí)現(xiàn)效果要求較高,對(duì)于一定范圍的失誤都難以容忍,因此還有待技術(shù)的革新。另外,值得一提的是,用戶習(xí)慣的養(yǎng)成非一朝一夕,因此從用戶培養(yǎng)角度而言也需時(shí)日。
為智能語音發(fā)燒的硬件方案
既然智能語音可在這么多領(lǐng)域大顯身手,那么從硬件角度而言,怎樣的芯片才可稱之為專為智能語音而生呢?
“瑞芯微 RK3229、銳迪科 RDA5981、聯(lián)發(fā)科 MT8516、全志 R16、樂鑫 ESP32 等都可稱為專為智能語音而生,這些方案多是支持 WiFi 接入功能(還可能帶有 BLE 功能)、內(nèi)置 Codec、支持多通道麥克風(fēng)陣列接口與語音識(shí)別算法,并接入主流語義云平臺(tái)(科大訊飛、亞馬遜 Alexa 等)?!绷纸ê拖壬忉尩?。
世平集團(tuán)智能語音解決方案包括:
a. RK3229 多麥克風(fēng)解決方案和 RK3036 雙麥解決方案,麥克風(fēng)陣列算法和語義平臺(tái)已經(jīng)連接 科大訊飛、思必馳、云知聲等平臺(tái),并支持 Amazon Alexa。
b. RDA :RDA5981 + RDA5856,連接百度度秘平臺(tái),主打低成本語音識(shí)別方案。
c. MXCHIP VBS6100, 內(nèi)置思必馳語音技術(shù)方案,搭配 MiCO 操作系統(tǒng),語音交互直達(dá)云端。
d. NXP i.MX7,連接 Amazon Alexa,Google Assistant,完美支持 Android Things。
e. TI TDA、Jacinto。
世平現(xiàn)在主要關(guān)注智能音箱與智慧家電等領(lǐng)域。林建和先生表示:當(dāng)下,智能語音方案實(shí)現(xiàn)的功能與性能還有待改善。
理想的應(yīng)用和產(chǎn)品定義是:可以把功耗做低,語音識(shí)別效果做好(更高識(shí)別率和對(duì)方言 / 口音的識(shí)別),實(shí)時(shí)性要高,體驗(yàn)更方便等。這有待于各原廠繼續(xù)推出更有競(jìng)爭(zhēng)力的產(chǎn)品,語音算法公司進(jìn)一步加強(qiáng)算法技術(shù),以提高人工智能水平。智能語音的革新也需要大型平臺(tái)帶頭推動(dòng)軟硬件的結(jié)合,以提高接入數(shù)量,形成規(guī)模化的生態(tài)系統(tǒng),給到用戶帶來更好的體驗(yàn)等。
智能語音布局:從整合資源到完善生態(tài)
林建和先生向與非網(wǎng)記者介紹了世平在智能語音方面的布局情況:
硬件方面
世平正在引入 RDA5981 語音識(shí)別方案,該方案搭載了 DuerOS(度秘)對(duì)話式人工智能操作系統(tǒng),可以賦予輕量級(jí)設(shè)備對(duì)話能力。該方案還支持 ARM? mbed 內(nèi)核及安全網(wǎng)絡(luò)協(xié)議棧,實(shí)現(xiàn)了與云端的安全連接,降低了設(shè)備商應(yīng)用開發(fā)門檻。
另外,還將結(jié)合各芯片原廠資源,進(jìn)行應(yīng)用整合,以提升產(chǎn)品邊緣計(jì)算能力。
生態(tài)方面
世平將與平臺(tái)合作伙伴比如亞馬遜、Apple、家電廠商、阿里巴巴、華為、電信運(yùn)營(yíng)商等平臺(tái) / 產(chǎn)品廠商做深度對(duì)接。
細(xì)究智能語音軟肋,未來之路在哪?
正是由于世平看到智能語音落地過程中出現(xiàn)的問題,才有了以上布局與愿景。那么細(xì)究其技術(shù)痛點(diǎn),林建和先生認(rèn)為所有以下五點(diǎn):
低功耗處理:當(dāng)下的自動(dòng)語音識(shí)別需要較高功耗才可實(shí)現(xiàn),下一代產(chǎn)品需要做的改善是搭一個(gè)聲音檢測(cè)電路,只在檢查到人聲時(shí)才打開更復(fù)雜的語音識(shí)別電路。才用此方案,可將功耗降低 90%以上,做到供電更持久。
識(shí)別率:由于方言與口音的原因,語音識(shí)別無法做到準(zhǔn)確識(shí)別,還有待于語音識(shí)別算法公司進(jìn)行繼續(xù)優(yōu)化。
語音識(shí)別的實(shí)時(shí)性:用戶說完待識(shí)別的詞條后,系統(tǒng)立即完成識(shí)別功能并有所回應(yīng),這就對(duì)電路的運(yùn)算速度有較高的要求,這是一大難點(diǎn)。
體積和價(jià)格的要求:在要求有盡可能好的識(shí)別性能外,還要求體積盡可能小、可靠性高、價(jià)錢低等特點(diǎn),這是需要充分平衡的因素。
互聯(lián)互通:在智慧家庭應(yīng)用中,場(chǎng)景單一聯(lián)動(dòng)不足,產(chǎn)品應(yīng)用偏向語音助理專屬裝置,語音處理服務(wù)尚未滲透到其他可聯(lián)網(wǎng)設(shè)備中,互聯(lián)互通存瓶頸。突破點(diǎn)是建立生態(tài)圈,開放語音接入服務(wù),提供語音接入基礎(chǔ)模塊。
智能音箱被譽(yù)為智能家居的入口,現(xiàn)在互聯(lián)網(wǎng)廠商、運(yùn)營(yíng)商、家電廠商等都在積極布局,世平也是其中一員。林建和先生表示,世平是致力于元件通路商和系統(tǒng)方案整合者,我們希望能努力溝通上下游,一起完成該領(lǐng)域有競(jìng)爭(zhēng)力的方案,促進(jìn)整個(gè)領(lǐng)域的發(fā)展。我們現(xiàn)在是上與互聯(lián)網(wǎng)公司溝通以接入云平臺(tái),下與各個(gè)原廠溝通以整合他們的方案并提供給客戶,希望大家都可以加入這個(gè)生態(tài)中,把智能語音做強(qiáng)做大。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!