?
臨近 2017 年末,國內(nèi)各大科技媒體開始各種形式的年終盤點,而大家都避不開的關(guān)鍵詞非 AI 莫屬。經(jīng)歷了前幾年 VR、無人機等技術(shù)從熱炒概念到落地的不溫不火后,電子產(chǎn)業(yè)似乎終于找到了一個興奮點,而且這個興奮點有著太多應(yīng)用場景的可能性?;叵脒@幾年 AI 概念爆發(fā)的起點,這樣一款終端產(chǎn)品不容忽視 -- 智能音箱,隨著眾多科技大佬包括亞馬遜,谷歌、BAT、京東、小米、聯(lián)想等的加入,正是這款消費產(chǎn)品讓 AI 概念在實際應(yīng)用場景中找到了首個落地點。雖然據(jù) GFK 在 11 月份發(fā)布的數(shù)據(jù),這一年里智能音箱在國內(nèi)市場的實際銷量可能只有 35 萬臺,遠未達到預(yù)期,但這不妨礙智能音箱背后的語音交互這種 AI 技術(shù)的燃點被觸發(fā),可以預(yù)見,未來幾年語音交互將在越來越多的終端產(chǎn)品和應(yīng)用場景中出現(xiàn)。
談到語音交互技術(shù),這里面涉及語音合成、語音識別、交互界面、麥克風陣列和語義理解等多個技術(shù)分支,每一個分支還有很大的技術(shù)提升空間。
同時在語音交互技術(shù)領(lǐng)域,亞馬遜以及國內(nèi)的科大訊飛逐漸成為技術(shù)領(lǐng)導(dǎo)者,思必馳、聲智科技、海知科技等科技新貴還在不斷涌現(xiàn)。而隨著一些互聯(lián)網(wǎng)公司包括 BAT、京東、小米等也開始部署和開發(fā)自己的語音交互技術(shù),未來幾年內(nèi)這一領(lǐng)域的市場競爭格局仍存在很大的變數(shù)。
語音交互還有哪些技術(shù)課題需要攻關(guān)?不同玩家在做大市場時都有怎樣的布局和玩法?未來 BAT 等互聯(lián)網(wǎng)企業(yè)和現(xiàn)有技術(shù)提供商之間將是怎樣的一種關(guān)系?帶著這些問題,與非網(wǎng)記者于近日采訪了思必馳公司 CMO 龍夢竹女士。
思必馳公司 CMO 龍夢竹
語音識別、語義理解還有哪些事情要做
上面提到語音交互技術(shù)涉及多個技術(shù)分支,大廠如亞馬遜和科大訊飛基本上全部都自己來開發(fā),其他大多企業(yè)則依自己的優(yōu)勢在不同技術(shù)分支上下功夫。
單就思必馳而言,龍夢竹介紹,其核心技術(shù)有 5 大方向,包括語音識別、語音合成、語音識別++、智能對話和語義理解。該公司的優(yōu)勢在于針對垂直的行業(yè)市場包括車載、家居和機器人方向提供語音交互解決方案。針對不同的應(yīng)用場景,龍夢竹表示,這其中語音交互的底層算法是通用的,都需要通過大數(shù)據(jù)算法對音頻進行識別和處理,不同之處在于應(yīng)用場景不同,具體的工程化設(shè)計就不同,這里面聲場的遠近,環(huán)境噪聲來源和干擾等都有所不同,而具體到語義理解,不同的應(yīng)用場景會有很大的不同,需要設(shè)備給出的回復(fù)也就不同,這其中最大的挑戰(zhàn)還是對話的過程和場景。
龍夢竹提到,判斷語音識別技術(shù)的準確度和正確率,業(yè)內(nèi)通常有字識別率、詞識別率和句識別率幾個指標,其中字識別率是在一些比賽中會用到,通常大家考慮的是詞識別率,句識別率則是對語義理解而言。同時針對大家關(guān)注較多的“語音喚醒”,也有喚醒率和誤喚醒率這兩個特性,而她也坦言,實際上因為語音交互技術(shù)的指標相對復(fù)雜,受不同環(huán)境和外界因素的影響較大,很難有一個真正客觀的評判標準。
此前思必馳首席科學(xué)家俞凱在一次活動中也提到,語音交互技術(shù)從對話的層面,需要區(qū)分的是問答、閑聊還是多輪對話的形式,不同的對話模式,設(shè)備需要做出的反饋也不同,要通過不同的算法優(yōu)化來實現(xiàn),“問答基本上是一問一答,你說一句它會給你一個答案,偶爾會帶有一點上下文,這并不是真正意義上多輪的東西;閑聊,比如微軟小冰,是你不停的說,它就不停的跟你聊天。閑聊的準則就是以聊的時間來定義的,但不同于問答,這里面是沒有什么目標意義的,所以閑聊要考慮如何把一些比較有趣的東西融入進去;最后一類是任務(wù)型的多輪對話,這類對話是要有比較扎實的數(shù)學(xué)基礎(chǔ)的,把對話看做是一個序列決策過程?!?/p>
針對不同的對話形式和應(yīng)用場景,包括思必馳在內(nèi)的語音技術(shù)公司還有很多工作要做。
?
DUI 是要做些什么
這幾年進入語音交互包括語音識別和自然語言處理領(lǐng)域的企業(yè)眾多,除了思必馳和已上市的科大訊飛,還包括聲智科技、海知智能、普強信息、云知聲、智齒科技、三角獸等,就像 AI 的其他領(lǐng)域一樣,蜂擁而入的科技企業(yè)讓整個產(chǎn)業(yè)形成一定的泡沫,肯定要經(jīng)過一個優(yōu)勝劣汰的過程。
為了在競爭中成為優(yōu)勝的那部分,資本、技術(shù)、生態(tài)、市場這幾大因素對每個玩家而言都至關(guān)重要。
近兩年語音技術(shù)公司的融資情況
就思必馳而言,今年其在產(chǎn)品、業(yè)務(wù)上一個大的調(diào)整是在 9 月份推出了一個開放的 DUI 平臺,全稱為 Dialogue User Interface,基于 Dialogue 為核心,這里面思必馳專注于垂直場景,以任務(wù)式對話為核心,兼具閑聊與問答功能,打造人性化交互。作為一個全鏈路智能對話開放平臺,DUI 提供的,不僅是基于思必馳智能語音語言技術(shù)的對話功能,更包括開發(fā)者在定制對話系統(tǒng)時所需要的綜合服務(wù),如 GUI 定制、版本管理、私有云部署等,讓開發(fā)者可以完全依據(jù)需求隨心所欲定制對話交互系統(tǒng)。
“DUI 平臺的受眾包括終端品牌商和技能開發(fā)者。技能開發(fā)者可以將自己的語音交互技術(shù)和產(chǎn)品放到 DUI 平臺的技能商店里,而品牌商可以利用 DUI 平臺提供的底層技術(shù)開發(fā)自己的產(chǎn)品,或者在技能商店中選購自己需要的功能模塊進行快速集成?!饼垑糁襁@樣介紹 DUI 平臺。她提到,以往思必馳提供的 2B 服務(wù)多是項目制的定制化開發(fā),對人員投入要求高,投入產(chǎn)出比相對較低,這會讓他們只能把精力用于服務(wù)一些大客戶。2013 年對話工場推出后,思必馳嘗試做 SDK,讓客戶做二次開發(fā),逐漸采用開放的模式。到了 2015 年,思必馳做到將一些底層 SDK 做好,針對不同的應(yīng)用快速開發(fā)集成。現(xiàn)在有了 DUI 平臺,思必馳將所有能開放的技術(shù)都開放出來,做好不同模塊的基礎(chǔ)集成,并提供技能包。同時那些思必馳自己做不了的部分,讓其他語音技術(shù)公司以及開發(fā)者一起參與進來,通過技能商店的方式搭建一個完整的產(chǎn)業(yè)鏈。用龍夢竹的話說,這是一個“從提供種子,到種菜園提供半成品,最后到中央廚房直接提供成型的菜品”的過程。
按照思必馳的構(gòu)想,DUI 儼然是一個開放的生態(tài),除了上面提到的技能開發(fā)者,因為跟思必馳的技術(shù)可以形成很好的互補,包括聲智科技、海知智能等這些同樣是語音技術(shù)的提供商也可以把 DUI 作為一個渠道和平臺參與其中,為終端用戶提供一種一站式的選擇和服務(wù)。龍夢竹介紹,未來其所有技術(shù)、產(chǎn)品將全部遷移到 DUI 平臺上,“9 月上線以來,DUI 平臺上的開發(fā)者有近 4000 人。目前公司負責 DUI 平臺開發(fā)的有 100 多人,作為公司未來的戰(zhàn)略方向,我們對 DUI 的投入是長期的,除了底層技術(shù),還需要不斷提高工程化的能力,包括跟別人的配合,為開發(fā)者提供大數(shù)據(jù)監(jiān)測、可視化、里程碑管理等功能,這個平臺還在不斷升級、完善中,我們會根據(jù)不同項目的落地進行動態(tài)調(diào)整?!?/p>
談到當前的難點和挑戰(zhàn),龍夢竹坦言,目前還在市場教育期,要讓大家了解 DUI 平臺都能幫助他們做些什么,它有哪些功能,解決市場接受度的問題。
具體到盈利模式,龍夢竹表示將設(shè)置一個免費門檻,用戶超過一定的調(diào)用頻次才開始收費。除此之外,思必馳也可以提供付費的定制化開發(fā)服務(wù)。
?
?
未來競爭格局,與 BATJ 等互聯(lián)網(wǎng)公司的關(guān)系將往何處去
“語音識別基本已經(jīng)形成門檻,再進入的可能性不大,很多做語音技術(shù)和設(shè)備的公司都采用思必馳的語音識別技術(shù)。這涉及到一個時間成本的問題,我們前面已經(jīng)花了幾年時間做的比較成熟了,后來者如果再花上幾年時間來做這塊,起點已經(jīng)不同,對他們來說也沒有什么意義。相對來說,新入者多集中在語義理解的后續(xù)處理環(huán)節(jié),前面語音識別將音頻轉(zhuǎn)換為文字,后續(xù)語義處理的信號鏈還比較長,這里還有些機會?!闭劶笆袌龈偁幐窬?,龍夢竹如是說。
對目前 BATJ 和小米等互聯(lián)網(wǎng)公司也紛紛進入語音技術(shù)領(lǐng)域,龍夢竹表示,未來會有競爭,但也會有合作。考慮到互聯(lián)網(wǎng)公司的財大氣粗可以招攬到大批高端技術(shù)人才以及對數(shù)據(jù)資源的掌握,未來不可避免會對科大訊飛、思必馳這類技術(shù)公司產(chǎn)生一定的沖擊,與非網(wǎng)記者從京東公司獲得的信息是,京東此前在語音技術(shù)方面一直和科大訊飛合作,包括國內(nèi)智能音箱銷量冠軍的叮咚就是京東和科大訊飛合作的產(chǎn)品,而今年開始京東已經(jīng)開始拋開科大訊飛全面自研語音技術(shù)。
但也不可否認,未來智能硬件和語音交互的市場體量是巨大的,尤其是存在很多細分和垂直市場,可容納的玩家更多。用龍夢竹的話說,在這些領(lǐng)域,考驗的是企業(yè)理解客戶需求、產(chǎn)品定義、操作系統(tǒng)匹配、技術(shù)支持以及工程化等方方面面的能力,不是幾家公司就能全部完成的,也不是每家互聯(lián)網(wǎng)企業(yè)都有這方面成功的基因。
對于思必馳而言,它的一個優(yōu)勢是還是一種創(chuàng)業(yè)的姿態(tài),能夠根據(jù)市場和技術(shù)趨勢及時調(diào)整自己的方向,做出靈活應(yīng)對。龍夢竹介紹,目前思必馳在橫向和縱向上完成了幾個重要的戰(zhàn)略布局。橫向上,通過 DUI 平臺的搭建,讓自己從過去的單打獨斗向擴展生態(tài)、提供平臺化服務(wù)方向發(fā)展;縱向上,思必馳在 2016 年正式成立了馳星創(chuàng)投,得到了元禾資本、富士康、清華控股等 LP 的支持,現(xiàn)旗下?lián)碛?2 億元天使基金和 10 億元成長基金,專注投資人工智能和智能交互產(chǎn)業(yè)的早期項目。目前已孵化并投資了車蘿卜、慧聲、先聲教育、AITEK、SIGMOID、愛醫(yī)聲、RT-Thread 等 9 家企業(yè),將自己的觸角延伸到資本和 AI 技術(shù)的應(yīng)用領(lǐng)域。
“因為馳星創(chuàng)投是完全獨立于思必馳運營,未來思必馳主體部分的主要盈利點是 DUI 平臺,同時我們會跟一些大企業(yè)合作成立合資子公司。”龍夢竹表示。
顯然,擺在思必馳面前的選擇還很多。
?
更多有關(guān)語音識別的資訊,歡迎訪問 與非網(wǎng)語音識別專區(qū)
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!