智能音箱讓我們看到了語音交互帶來的可能性,而隨著高質(zhì)量、實(shí)時(shí)的人機(jī)對(duì)話技術(shù)的發(fā)展,我們與智能設(shè)備、應(yīng)用程序的交互方式將會(huì)被徹底顛覆。不論是智能音箱、語音助手、智能客服,還是未來在智能家居、智能汽車、機(jī)器人、工業(yè)物聯(lián)網(wǎng)設(shè)備等領(lǐng)域,一個(gè)更為廣闊的藍(lán)海市場(chǎng)正在開啟。
更為智能的人機(jī)交互的重要基礎(chǔ)是什么?正是對(duì)話式AI,這也是為什么它成為近年來科技巨頭、AI廠商、互聯(lián)網(wǎng)廠商的必爭(zhēng)之地。IDC數(shù)據(jù)顯示,在中國(guó)市場(chǎng),對(duì)話式AI市場(chǎng)規(guī)模預(yù)計(jì)在2023年達(dá)到約18.6億美元,2019-2023年的年均復(fù)合增長(zhǎng)率(CAGR)為34.0%。
對(duì)話式AI奔向藍(lán)海的關(guān)鍵是什么?
對(duì)話式AI是AI領(lǐng)域的集大成者,融合了語音識(shí)別、語義理解、自然語言處理、語音合成等多種解決方案,能夠?yàn)殚_發(fā)者提供具備識(shí)別、理解及反饋能力的開放式平臺(tái)的技術(shù),使機(jī)器與人能夠進(jìn)行自然對(duì)話。
正如開篇所說,高質(zhì)量的、實(shí)時(shí)的對(duì)話是通往未來的關(guān)鍵,不夠智能、延時(shí)太長(zhǎng)的“智障”產(chǎn)品是無法忍受的。這也恰好是語音交互當(dāng)前的瓶頸所在,智能音箱作為首個(gè)進(jìn)入尋常人家的智能語音硬件載體,完成了智能語音助手的消費(fèi)者認(rèn)知和用戶交互習(xí)慣培養(yǎng),但距離真正智能的人機(jī)對(duì)話還有很長(zhǎng)的路要走。
一次完整的人機(jī)對(duì)話大致可以分為四步:將用戶語音轉(zhuǎn)換為文本,理解文本含義,搜索符合語境的最佳應(yīng)答,最后使用文本轉(zhuǎn)語音工具提供應(yīng)答。舉個(gè)例子,比如用戶說了一句英文,希望機(jī)器能夠翻譯成中文。機(jī)器首先需要把口語轉(zhuǎn)化成文字,也就是進(jìn)行語音內(nèi)容的抽?。蝗缓笤侔阉诺揭粋€(gè)語音模型中,找出各詞匯之間的關(guān)系,理解文本的含義;一旦機(jī)器理解了意思之后,需要在語言模型中找出合適的語言;最后才能給出一個(gè)完整的回答。
?
這僅是在特定語境下的一次簡(jiǎn)單對(duì)話。如果真要讓機(jī)器達(dá)到人類的語言交流程度,在任何語境下,不論是內(nèi)涵笑話,還是特定文化背景中的“梗”或文字游戲,都能極為巧妙地進(jìn)行交談,對(duì)機(jī)器無疑是極大的挑戰(zhàn)——它要在極短的時(shí)間內(nèi)完成極為復(fù)雜的計(jì)算,才能達(dá)到上述效果。
這就涉及到需要很多模型同時(shí)發(fā)揮作用、多種多樣的神經(jīng)網(wǎng)絡(luò)提供支持,而且這些模型都很龐大且復(fù)雜。這就帶來了另一個(gè)問題:模型越大,用戶提問與 AI 應(yīng)答之間的延遲就越長(zhǎng)。如果延時(shí)超出300ms閾值,對(duì)話要么不自然,要么已經(jīng)失去了回答的意義。
這也是目前為止,對(duì)話式AI的兩難。在開發(fā)語言處理神經(jīng)網(wǎng)絡(luò)以支持實(shí)時(shí)語音應(yīng)用程序的過程中,開發(fā)人員被迫面臨著一種權(quán)衡:要實(shí)現(xiàn)快速響應(yīng),必須犧牲響應(yīng)質(zhì)量;要追求智能響應(yīng),則不可避免會(huì)減慢速度。
魔杖選擇了巫師,還是巫師定義了魔杖?
如果說對(duì)話式AI是改變智能語音應(yīng)用的魔杖,那么,如何將它的效果發(fā)揮到最大還要看巫師的能力。運(yùn)行超大模型和通過豐富的軟件、庫加速訓(xùn)練優(yōu)化模型是英偉達(dá)的長(zhǎng)板,這些長(zhǎng)板在對(duì)話式AI領(lǐng)域形成合力。
美國(guó)當(dāng)?shù)貢r(shí)間2月25日,英偉達(dá)Jarvis應(yīng)用框架公測(cè)版正式發(fā)布。這對(duì)開發(fā)人員來說是一個(gè)重大進(jìn)展,可以借助英偉達(dá)GPU加速的完整的軟件堆棧和工具,在運(yùn)行大型且復(fù)雜的 AI 模型與更好的實(shí)時(shí)性方面得到兼顧。
發(fā)展對(duì)話式AI來源于黃仁勛對(duì)這一市場(chǎng)的基本判斷,他在發(fā)布Jarvis時(shí)說過,“隨著應(yīng)用程序具備了通過感知細(xì)微差別和上下文來理解和交流的能力,對(duì)話式AI將成為未來許多行業(yè)的關(guān)鍵核心,能夠幫助醫(yī)療、金融服務(wù)、教育和零售行業(yè)以快速和準(zhǔn)確的方式提供自動(dòng)化的支持服務(wù)?!?/p>
對(duì)于企業(yè)來說,為了給客戶提供個(gè)性化的交互體驗(yàn),他們需要使用針對(duì)自身產(chǎn)品和客戶需求的數(shù)據(jù)訓(xùn)練其語言應(yīng)用。但是,從頭開始構(gòu)建一項(xiàng)服務(wù)需要深厚的AI專業(yè)知識(shí)、大量數(shù)據(jù)和計(jì)算資源來訓(xùn)練模型,以及能夠使用新數(shù)據(jù)對(duì)模型進(jìn)行定期更新的軟件。如果能夠提供一定的預(yù)訓(xùn)練模型、以及端到端的深度學(xué)習(xí)方案則有助于解決這些難題。
為了打造這支魔杖,英偉達(dá)已經(jīng)蓄力多年。近年來,我們陸陸續(xù)續(xù)看到它在這方面的進(jìn)展:訓(xùn)練出世界上最大的語言模型、加速GPU在語言理解性能方面的提升、幫助AI從業(yè)者創(chuàng)建大型語言模型、開源相關(guān)代碼……
最新宣布的Jarvis公測(cè)版就是這些創(chuàng)新的集大成者,它是一個(gè)全面的框架,包含使用最新深度學(xué)習(xí)模型的ASR、NLU、TTS和計(jì)算機(jī)視覺的GPU優(yōu)化服務(wù)。
?
英偉達(dá)對(duì)話式AI高級(jí)工程總監(jiān)Janathan Cohen介紹,Jarvis包括用于構(gòu)建對(duì)話式AI系統(tǒng)整個(gè)生命周期的端到端工具包,以及在DGX SuperPOD上已經(jīng)訓(xùn)練了超過10萬小時(shí)的預(yù)訓(xùn)練模型。定制化服務(wù)也是一大特色:通過Transfer Learning Toolkit(TLT)可實(shí)現(xiàn)“零代碼”的再訓(xùn)練,降低了企業(yè)的應(yīng)用壁壘;同時(shí),基于PyTorch的開源工具包NeMo,使得企業(yè)能夠基于自己的數(shù)據(jù)對(duì)這些模型進(jìn)行微調(diào),還可使用TensorRT進(jìn)行推理優(yōu)化,通過NGC(NVIDIA GPU優(yōu)化的軟件目錄)上的Helm圖表,在云和邊緣的不同服務(wù)器上高效部署模型,為更大規(guī)模的對(duì)話式AI做好準(zhǔn)備。
Janathan Cohen表示,構(gòu)建對(duì)話式AI系統(tǒng)和應(yīng)用程序并不是一件容易的事情,如果是為數(shù)據(jù)中心量身定制一個(gè)組件來滿足企業(yè)的需要就更難了。因?yàn)獒槍?duì)特定領(lǐng)域應(yīng)用程序的部署,通常需要幾個(gè)周期的重新訓(xùn)練、微調(diào)和模型部署,直到模型滿足要求為止。為了解決這些問題,英偉達(dá)目前可以提供的支持主要包括三方面:通過遷移學(xué)習(xí)工具包來加速AI模型的訓(xùn)練和微調(diào);Jarvis簡(jiǎn)化了模型的部署和推理;通過英偉達(dá)GPU優(yōu)化的軟件目錄集合了所有預(yù)訓(xùn)練的對(duì)話式AI模型,便于企業(yè)用戶進(jìn)一步微調(diào)或部署。
Jarvis目前可提供三種服務(wù),語音識(shí)別(Speech Recognition)、語音合成(Speech Synthesis)和自然語言理解(NLU)。據(jù)了解,語音和語言組件已發(fā)布,下一步會(huì)增加計(jì)算機(jī)視覺和其他模態(tài)的組件。
多模態(tài)的融合將是對(duì)話式AI未來的主要方向,將自動(dòng)語音識(shí)別的關(guān)鍵元素與實(shí)體和意圖相結(jié)合,才能夠滿足新用例對(duì)高吞吐量和低延遲的需求。對(duì)于視覺類應(yīng)用,Jarvis 具有用于人員檢測(cè)和跟蹤、手勢(shì)、唇部活動(dòng)、注視、以及身體姿勢(shì)檢測(cè)的模塊。通過并行處理的方式,能夠?qū)崟r(shí)處理多個(gè)數(shù)據(jù)流,提供更自然的交互。
虛擬語音助理市場(chǎng)高速增長(zhǎng)
虛擬語音助理是對(duì)話式AI目前應(yīng)用最為成熟的領(lǐng)域之一,不論是自動(dòng)客服還是數(shù)字助理,這一市場(chǎng)正在高速增長(zhǎng)中。
IBM商業(yè)價(jià)值研究院 (IBV) 與牛津經(jīng)濟(jì)研究院在疫情爆發(fā)之初合作開展了一項(xiàng)全球調(diào)研,99%的受訪企業(yè)表示,通過使用虛擬客服技術(shù)降低了每次聯(lián)系的成本,據(jù)估算每處理一次對(duì)話可節(jié)省 5.50 美元的成本,客戶滿意度因此提高了12%,客服滿意度提高了9%,收入增長(zhǎng)了3%。再根據(jù)IDC預(yù)計(jì),全球范圍內(nèi),自動(dòng)客戶服務(wù)代理和數(shù)字助理等對(duì)話式AI用例的支出投入,將從2019年的58億美元增長(zhǎng)至2023年的138億美元,復(fù)合年增長(zhǎng)率將達(dá)24%。
英偉達(dá)認(rèn)為,企業(yè)部署虛擬語音助理對(duì)開發(fā)人員來說,挑戰(zhàn)主要源于兩方面:一是高質(zhì)量的虛擬助理與最終用戶體驗(yàn)直接相關(guān),需要能夠準(zhǔn)確理解各種語言、方言和專業(yè)術(shù)語,并完成多輪對(duì)話。二是高性能和可擴(kuò)展性是嚴(yán)格質(zhì)量要求的一部分。當(dāng)虛擬助理部署到數(shù)億并發(fā)用戶的規(guī)模時(shí),作為性能權(quán)衡的一部分,控制大規(guī)模的延遲成了一項(xiàng)額外的工程挑戰(zhàn)。而Jarvis有望幫助企業(yè)解決這些難題,更為容易地部署和開發(fā)特定功能,這在英偉達(dá)的客戶中已經(jīng)呈現(xiàn)出了初步的“雪球效應(yīng)”:?
Voca是東芝、AT&T等全球領(lǐng)先公司的AI虛擬代理公司,Voca公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Alan Bekker表示:“低延遲對(duì)于呼叫中心至關(guān)重要。我們的虛擬代理能夠在一秒內(nèi)完成收聽、理解并作出最準(zhǔn)確的響應(yīng)?,F(xiàn)在,虛擬代理能夠成功處理70-80%的呼叫,其中包括一般性的客戶服務(wù)請(qǐng)求、付款交易和技術(shù)支持等。”
Kensho部署了可擴(kuò)展的機(jī)器學(xué)習(xí)和分析系統(tǒng),Kensho AI研究主管Georg Kucsko表示:“使用英偉達(dá)深度學(xué)習(xí)技術(shù)推進(jìn)端到端自動(dòng)語音識(shí)別技術(shù),與不使用AI的傳統(tǒng)方法訓(xùn)練新模型相比,在轉(zhuǎn)錄金融行業(yè)專業(yè)術(shù)語時(shí)的準(zhǔn)確度得到了明顯提高,無需幾天,只需幾分鐘就能為客戶提供及時(shí)信息?!?/p>
Scribe開發(fā)了針對(duì)金融行業(yè)和商業(yè)的語音識(shí)別解決方案?;谟ミ_(dá)的對(duì)話式AI平臺(tái)技術(shù),在處理財(cái)報(bào)會(huì)議和類似財(cái)務(wù)音頻方面的準(zhǔn)確度,相較于其它的商業(yè)解決方案高出了20%。
平安科技作為Jarvis early access計(jì)劃的早期合作伙伴,已經(jīng)通過使用聊天機(jī)器人來處理每天數(shù)百萬條的客戶查詢。通過預(yù)訓(xùn)練的模型NeMo和使用Jarvis優(yōu)化的ASR,系統(tǒng)的精確度提高了5%。
結(jié)語
對(duì)話式AI正在連接一切。暢想一個(gè)未來:當(dāng)你在和智能音箱談?wù)撎鞖鈺r(shí),不僅僅是問“今天多少度?”當(dāng)你說“我好熱”,你的智能音箱會(huì)回答:“已經(jīng)為您把空調(diào)調(diào)低2度”。它不止聽懂了你的話、理解了你的意圖,還能執(zhí)行你所期望的操作。
長(zhǎng)遠(yuǎn)來看,對(duì)話式AI其實(shí)就是為構(gòu)建更有人情味的AI系統(tǒng)打基礎(chǔ)。