隨著我國(guó)人工智能發(fā)展規(guī)劃的出臺(tái),以及各項(xiàng)關(guān)鍵技術(shù)的日趨成熟,物聯(lián)網(wǎng)時(shí)代逐步成為繼移動(dòng)互聯(lián)網(wǎng)時(shí)代的下一個(gè)浪潮,人機(jī)交互開(kāi)啟新一輪的需求革新,從鼠標(biāo)、鍵盤(pán)、觸屏的傳統(tǒng)交互向語(yǔ)音交互演進(jìn),社會(huì)正在飛速進(jìn)入智能語(yǔ)音交互時(shí)代。
以“語(yǔ)音+內(nèi)容+智能”為切入點(diǎn),打造自主設(shè)計(jì)、自主整合、自主運(yùn)營(yíng)的一站式語(yǔ)音交互共享平臺(tái),構(gòu)建可運(yùn)營(yíng)、能變現(xiàn)的語(yǔ)音交互生態(tài),賦能多形態(tài)終端產(chǎn)品,打造能聽(tīng)會(huì)說(shuō)的人機(jī)交互體驗(yàn),是未來(lái)智慧家庭發(fā)展的大趨勢(shì),也是中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心推進(jìn)數(shù)字家庭生態(tài)建設(shè)的重點(diǎn)方向。
1、語(yǔ)音交互是智慧家庭生態(tài)布局的關(guān)鍵入口?
1.1 人機(jī)交互需求不斷革新
伴隨著交互場(chǎng)景的拓展,人們逐漸對(duì)交互自由度提出了更大需求,語(yǔ)音交互越來(lái)越貼近人類(lèi)的本能表達(dá)。語(yǔ)音交互憑借其輸入速度快、場(chǎng)景限制少、技術(shù)鏈條發(fā)展成熟等優(yōu)勢(shì),成為智能時(shí)代的理想交互途徑,并逐步向交互智能、終端多態(tài)、服務(wù)泛在的方向發(fā)展。
1.2 家庭場(chǎng)景服務(wù)更加智能
語(yǔ)音交互是將人工智能技術(shù)底層產(chǎn)業(yè)化的關(guān)鍵,語(yǔ)音助手連接多形態(tài)終端和廣泛業(yè)務(wù),可提供內(nèi)容服務(wù)、互聯(lián)網(wǎng)服務(wù),以及場(chǎng)景化智能家居控制等服務(wù),為家庭用戶提供互動(dòng)娛樂(lè)、互動(dòng)教育、家庭健康、家庭安防等新型產(chǎn)品體驗(yàn),其中智能音箱成為首款爆發(fā)單品,并逐步向更多產(chǎn)品形態(tài)延伸。
2、核心技術(shù)攻關(guān)提升體驗(yàn)
智能語(yǔ)音交互主要涉及語(yǔ)音識(shí)別、語(yǔ)義理解和語(yǔ)音合成等技術(shù)。語(yǔ)音識(shí)別技術(shù)能將語(yǔ)音流轉(zhuǎn)換為文本,語(yǔ)義理解技術(shù)可分析語(yǔ)句的含義、剖析用戶意圖,語(yǔ)音合成技術(shù)將解析結(jié)果以語(yǔ)音的方式反饋給用戶,從而實(shí)現(xiàn)與用戶的智能語(yǔ)音交互。
2.1 語(yǔ)音識(shí)別——聽(tīng)得清
智能語(yǔ)音交互平臺(tái)現(xiàn)采用基于 Transformer 算法的端到端模型,具備識(shí)別速度快、識(shí)別準(zhǔn)確率高的特性。該模型采用基于上下文理解的自注意力機(jī)制,提升了語(yǔ)義特征提取能力,解決了傳統(tǒng)模型中聲學(xué)模型和語(yǔ)言模型無(wú)法聯(lián)合優(yōu)化的問(wèn)題,并且該算法能更好地利用先進(jìn)硬件實(shí)現(xiàn)并行計(jì)算,從而提升運(yùn)算速度。
2.2 語(yǔ)義理解——聽(tīng)得懂
平臺(tái)采用基于規(guī)則+深度+關(guān)鍵詞匹配算法的多算法融合模型理解用戶意圖,規(guī)則算法對(duì)于較短文本可實(shí)現(xiàn)快速準(zhǔn)確的匹配,深度學(xué)習(xí)算法可對(duì)詞表無(wú)法覆蓋的新詞進(jìn)行識(shí)別,關(guān)鍵詞匹配算法對(duì)于詞表順序顛倒、文本長(zhǎng)尾問(wèn)題,能快速準(zhǔn)確地識(shí)別文本意圖。
2.3 語(yǔ)音合成——說(shuō)得明
平臺(tái)采用端到端合成系統(tǒng),可直接輸入文本或注音字符,直接輸出音頻波形,該系統(tǒng)降低了對(duì)語(yǔ)言學(xué)知識(shí)的要求,能批量實(shí)現(xiàn)幾十種甚至更多語(yǔ)種的合成系統(tǒng),并且它表現(xiàn)出豐富的發(fā)音風(fēng)格和強(qiáng)大的韻律表現(xiàn)力,加快不同聲音的合成。
3、語(yǔ)音 OS 鍛造,賦能語(yǔ)音生態(tài)
3.1 語(yǔ)音助手,賦能多形態(tài)終端
智能語(yǔ)音交互平臺(tái)面向多形態(tài)終端提供語(yǔ)音助手,采用 Hook 技術(shù)分離各個(gè)子模塊,實(shí)現(xiàn)語(yǔ)音點(diǎn)播、通話、聽(tīng)書(shū)、對(duì)話等功能,協(xié)助平臺(tái)構(gòu)建聲紋、情緒、體感等多模態(tài)識(shí)別交互和相應(yīng)反饋、推薦業(yè)務(wù),兼容主流操作系統(tǒng),支持自定義接口擴(kuò)展,大大縮短接入周期和研發(fā)成本,快速賦能生態(tài)硬件及應(yīng)用的語(yǔ)音交互能力。
3.2 語(yǔ)音插件,賦能海量應(yīng)用
平臺(tái)面向海量應(yīng)用提供語(yǔ)音交互插件,制定標(biāo)準(zhǔn)開(kāi)放協(xié)議,基于 IPC 實(shí)現(xiàn)第三方應(yīng)用與 Launcher 的跨進(jìn)程通訊,當(dāng)用戶調(diào)用語(yǔ)音控制,由平臺(tái)下發(fā)熱詞及詞槽信息,Launcher 進(jìn)行動(dòng)態(tài)匹配并下發(fā)至第三方應(yīng)用,可進(jìn)行直播、點(diǎn)播、播控等,從而實(shí)現(xiàn)所見(jiàn)即所得。
4、整套場(chǎng)景封裝,提供系統(tǒng)解決方案
4.1 全屋智能
基于智能語(yǔ)音交互能力和 Andlink 智能家居云平臺(tái),提供智能音箱、智能面板、智能照明、智能開(kāi)關(guān)等一體化全屋智能解決方案,實(shí)現(xiàn)跨廠商設(shè)備的接入和語(yǔ)音控制,可與智能門(mén)禁、攝像頭等結(jié)合,實(shí)現(xiàn)家庭安防組合等細(xì)分場(chǎng)景。
4.2 AI 客廳
打造智慧屏,通過(guò)語(yǔ)音遙控器、智能音箱與智能電視結(jié)合的方式,實(shí)現(xiàn)電視播控推薦,將語(yǔ)音能力賦能教育、電商、音樂(lè)、游戲、健康等大屏應(yīng)用,發(fā)揮輕量級(jí)語(yǔ)音技能,實(shí)現(xiàn)一說(shuō)即得的用戶體驗(yàn)。
4.3 智能對(duì)話服務(wù)
提供融合語(yǔ)義推導(dǎo)與語(yǔ)義匹配的對(duì)話理解技術(shù),預(yù)置涵蓋音視頻娛樂(lè)、設(shè)備控制、生活服務(wù)等領(lǐng)域的對(duì)話能力及詞典,高效定制對(duì)話能力,在智能助手、在線客服、語(yǔ)音家教等領(lǐng)域可廣泛應(yīng)用。
?
5、結(jié)束語(yǔ)
智能語(yǔ)音交互系統(tǒng)攻關(guān)語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等技術(shù),快速賦能多形態(tài)終端,應(yīng)用于 “能聽(tīng)會(huì)說(shuō)”、“能理解會(huì)思考”的 AI 交互體驗(yàn),實(shí)現(xiàn)從概念、技術(shù)到商業(yè)產(chǎn)品、功能應(yīng)用的跨越,形成一個(gè)以語(yǔ)音交互技術(shù)為核心的全新應(yīng)用生態(tài)鏈,促進(jìn)人工智能產(chǎn)業(yè)的迅猛發(fā)展。
在 5G 快速發(fā)展的背景下,高帶寬和低時(shí)延特性促使智能語(yǔ)音交互技術(shù)不斷攻克新的難題,開(kāi)啟新的篇章。在“理解”層面,重點(diǎn)打造“支持打斷和智能糾正”的認(rèn)知型對(duì)話引擎,實(shí)現(xiàn)自然交互的本質(zhì)要求;在“應(yīng)用”層面,語(yǔ)音交互內(nèi)容技能生態(tài)將滲透各個(gè)領(lǐng)域,并進(jìn)行場(chǎng)景化的封裝,真正實(shí)現(xiàn)海量服務(wù)“開(kāi)口即得”的交互體驗(yàn);在“接入”層面,語(yǔ)音助手持續(xù)擴(kuò)大樞紐作用,賦能更多形態(tài)終端和交互應(yīng)用規(guī)模起量,實(shí)現(xiàn)萬(wàn)物均能說(shuō)話;在“沉浸式”層面,將融合語(yǔ)音識(shí)別、人臉識(shí)別、表情分析、唇動(dòng)狀態(tài)、眼球跟蹤、手勢(shì)識(shí)別、觸覺(jué)監(jiān)控等智能人機(jī)交互手段,完善“端 - 端”、“端 - 云 - 端”的交互協(xié)議,打造沉浸式多模態(tài)互動(dòng)體驗(yàn)。
當(dāng)人機(jī)交互越來(lái)越貼近自然表達(dá),中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心將持續(xù)深化智能語(yǔ)音生態(tài)體系建設(shè),引領(lǐng)未來(lái)美好生活。