加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

數(shù)字人全面接管!達(dá)摩院天貓精靈研發(fā)全新終端交互引擎

2022/11/05
816
閱讀需 4 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

“數(shù)字人不只是皮膚人!”11月5日云棲大會(huì)上,阿里巴巴集團(tuán)研究員李小龍透露,正在聯(lián)合研發(fā)由數(shù)字人全面接管的交互引擎。項(xiàng)目集合達(dá)摩院NLP,語(yǔ)音,視覺,3D構(gòu)建驅(qū)動(dòng)及大模型領(lǐng)域團(tuán)隊(duì),和天貓精靈AliGenie交互系統(tǒng)專家。就像手指觸屏奠定智能手機(jī)交互,大模型數(shù)字人將接管未來(lái)智能交互。

(圖:李小龍介紹全新數(shù)字人引擎技術(shù)架構(gòu))

數(shù)字人領(lǐng)域正由喧囂轉(zhuǎn)向理性。雖然高精度高顏值的人偶形象不斷出現(xiàn),但絕大部分場(chǎng)景缺乏與用戶的持續(xù)性、個(gè)性化互動(dòng),進(jìn)而商業(yè)化規(guī)模有限。如,只能在短視頻和動(dòng)畫中存在的虛擬偶像?;蛑辉趩我辉O(shè)備或界面中面向大眾支持問(wèn)答的虛擬員工,這些形態(tài)缺乏大模型訓(xùn)練和大規(guī)模交互,無(wú)法個(gè)性化學(xué)習(xí)升級(jí),用戶感受就像“沒有靈魂”。

數(shù)字人Inside接管終端——?jiǎng)t是阿里巴巴正在嘗試的新方式。天貓精靈產(chǎn)品規(guī)劃負(fù)責(zé)人盧勇介紹,接入AliGenie系統(tǒng)的終端已覆蓋4000多萬(wàn)家庭、包含1600多個(gè)品牌的4.6億已接入產(chǎn)品,能讓數(shù)字人在可持續(xù)、大規(guī)模、組合式的場(chǎng)景與用戶交互。AliGenie此前公布,僅智能音箱產(chǎn)品每月交互80億次以上,70%是主動(dòng)型服務(wù)。許多消費(fèi)硬件領(lǐng)域廠商,也迫切希望有超出單出連接、單一設(shè)備對(duì)話的智能體驗(yàn)。

以多模態(tài)大模型驅(qū)動(dòng)的智能化,理論上也非常適合缺乏數(shù)據(jù)、場(chǎng)景碎片化的智能終端場(chǎng)景。李小龍列舉了達(dá)摩院積累的包括多模態(tài)大模型、語(yǔ)音、自然語(yǔ)言、3D構(gòu)建驅(qū)動(dòng)、各個(gè)領(lǐng)域近兩年百項(xiàng)專利與頂會(huì)論文,通過(guò)將這些成果,在諸多交互場(chǎng)景驗(yàn)證,一個(gè)多模態(tài)大模型為基礎(chǔ)的數(shù)字人的引擎已初顯雛形。

例如,由通義多模態(tài)大模型(BroadScope)訓(xùn)練的數(shù)字人,可以具備可泛化的認(rèn)知驅(qū)動(dòng)能力,數(shù)字人根據(jù)音樂(lè)進(jìn)行舞蹈、根據(jù)文字產(chǎn)生行動(dòng),改變了過(guò)去完全要單一維度數(shù)據(jù)訓(xùn)練的模式,能夠讓數(shù)字人遷移場(chǎng)景進(jìn)行服務(wù)。

在云語(yǔ)音語(yǔ)義技術(shù)方面,Gartner 2022報(bào)告顯示,阿里綜合能力居全球第二。并在Wizard of Wiki(知識(shí)對(duì)話)、Commonsense QA(常識(shí)問(wèn)答)和VQA(視覺問(wèn)答)三項(xiàng)全球評(píng)測(cè)中連續(xù)獲得冠軍,并超過(guò)人類能力基準(zhǔn)。

以天貓精靈日常對(duì)話場(chǎng)景為例,通過(guò)大模型底座進(jìn)一步訓(xùn)練的對(duì)話大模型mPLUG-dialog,將可能成為包含知識(shí)、情感、個(gè)性、記憶的全新交互系統(tǒng)。

在內(nèi)容上,不再是單純地按知識(shí)庫(kù)或搜索結(jié)構(gòu)在檢索和回答問(wèn)題,而是綜合這四個(gè)維度,努力給出更有趣更有情商的回復(fù),在聲音上,不再是字正腔圓的播報(bào)音,會(huì)包含更豐富更細(xì)膩的情緒。實(shí)時(shí)溝通時(shí),AI不僅能被隨時(shí)打斷,也能穩(wěn)定接茬,還會(huì)主動(dòng)追問(wèn)。

(圖:大模型將提升數(shù)字人的自主對(duì)話能力)

2022年開始,達(dá)摩院多模態(tài)大模型開始應(yīng)用于天貓精靈語(yǔ)音搜索與百科場(chǎng)景。雙方目前將合作場(chǎng)景推向AliGenie交互的系統(tǒng)層和用戶感知層。預(yù)計(jì),第一款由數(shù)字人全面接管交互引擎的產(chǎn)品,將在2023年一季度讓用戶升級(jí)體驗(yàn)。

?

阿里巴巴

阿里巴巴

阿里巴巴集團(tuán)經(jīng)營(yíng)多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營(yíng)商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國(guó)際交易市場(chǎng)、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。

阿里巴巴集團(tuán)經(jīng)營(yíng)多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營(yíng)商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國(guó)際交易市場(chǎng)、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜