漢語是門“有聲語言”,手語是門“視覺語言”。
雷鋒網(wǎng)消息,5月17日,搜狗CEO王小川在搜狐科技5G&AI峰會對外發(fā)布了新一代搜狗AI合成主播——手語AI合成主播“小聰”。
作為搜狗AI合成主播經(jīng)過兩年多時間迭代后的新品,手語AI合成主播集成了超寫實3D數(shù)字人建模、機器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實時面部動作生成及驅(qū)動技術(shù)。據(jù)搜狗官方信息顯示,在組織的聾人可懂度測評中,搜狗手語AI合成主播可懂度達到了85%以上。
搜狗這款手語AI合成主播研發(fā)初衷是什么?
為什么有了語音識別生成字幕技術(shù)后,還要做搜狗手語AI合成主播?
搜狗手語AI合成主播與一脈相承的語音識別、AI分身在技術(shù)研發(fā)過程中又有何異同?
……
這些問題都在5月19日的媒體溝通會上由搜狗AI交互技術(shù)部總經(jīng)理陳偉及他的團隊進行了一一解答。
1、研發(fā)初衷:聽障人士看字幕,如學(xué)外語般艱辛
2018年11月,搜狗與新華社合作研發(fā)的AI合成主播正式問世,幾經(jīng)迭代后,在2020年5月,又與新華社聯(lián)合推出了3D AI合成主播。
當時陳偉和他的團隊在為搜狗為3D AI合成主播規(guī)劃未來發(fā)展方向時,著重考慮了三個方面:
第一,要把3D能力做好;
第二,我們希望搜狗在“數(shù)字人”這個方向上有自己更高的技術(shù)壁壘;
第三,我們要找到有強烈需求的場景。
綜合考慮場景、渠道和技術(shù)迭代中的創(chuàng)新后,2020年5月,手語AI合成主播在搜狗內(nèi)部正式立項。
既然有字幕了,還要手語干什么?
這也是搜狗手語AI合成主播立項之初,陳偉當時需要考慮的問題。
對此,陳偉總結(jié)了三方面原因:
第一,并非所有聽障人士能看懂字幕。
在我國2700萬聽障人士中,整體受教育程度參差不齊,有高中、大學(xué)學(xué)歷的聽障人士在這一群體中仍然只占非常小的比例,現(xiàn)在大家對字幕獲取的能力還在逐漸培養(yǎng)中,要想讓絕大部分聽障人士看懂字幕還有很長的路要走。
第二,「有字幕」這件事兒和「做手語」不是必須二選一的。
我們在了解信息、獲取信息過程中必然會通過多種方式,我們自己在看電影的時候,有時候盡管中文的電影我們可能也會看字幕,大家本能的想法是我怎么能更快更高效的獲取信息,他能看懂字幕更好,如果看不懂,還有手語可以提供信息。
第三,手語語言和有聲語言之間是完全不同的語言體系,聽障人士對有聲語言的接受程度類似健聽人對第二外語的接受程度。
聽障人士即便學(xué)習(xí)了漢語,對他來說也是第二語言,就像我們在學(xué)習(xí)英語過程中,盡管我們學(xué)習(xí)了很長時間,但還是很難產(chǎn)生熟悉的感覺。
與此同時,聽障人士在學(xué)習(xí)漢語的過程中其實天生是有障礙的,因為漢語或者普通話更多的是表音文字,每個字都有發(fā)音,我們之所以能夠快速學(xué)習(xí)語音,是因為有語境。我們跟別人溝通的時候,溝通的前提是眼睛看著大家,看到了唇形,同時聽到了聲音,結(jié)合在一起是多模態(tài)的,但是聽障人士在聽力上天生有障礙,就少了一個因素讓他更快地學(xué)習(xí)有聲語言。他們之所以學(xué)手語學(xué)得快,是因為手語是視覺語言,不需要輔以聲音進行理解。從這個角度來看,手語短期內(nèi)不可能完全被字幕替換掉,它仍然是聽障人士的主要學(xué)習(xí)方式,手語表達也更符合聽障人士的習(xí)慣。
就在搜狗手語AI合成主播發(fā)布的同時,搜狗還對外發(fā)布了柳巖同款明星“數(shù)字人”。
據(jù)陳偉透露,柳巖同款明星“數(shù)字人”從錄制到上線用了有一個月的時間,其中錄制僅用了兩個半天(合計一天),數(shù)據(jù)標注花了30%-40%的時間,剩下的則是技術(shù)研發(fā)和迭代用的時間。
而手語AI合成主播“小聰”的技術(shù)難度要遠遠大于明星“數(shù)字人”。
2、研發(fā)歷路:手語是門“視覺語言”
搜狗研發(fā)了多代AI合成主播,在語音識別技術(shù)上也積累頗豐。然而,手語AI合成主播對于搜狗而言,仍是一個全新的領(lǐng)域。
據(jù)陳偉介紹,搜狗在做手語AI合成主播“小聰”時,主要做了三方面工作:
「語言側(cè)手語的研究」、「語言體系的翻譯」和「表征表達」。
首先,在研發(fā)“小聰”過程中,搜狗最先遇到的就是手語數(shù)據(jù)庫建立的問題。
搜狗開始接觸手語發(fā)現(xiàn)了一個問題:手語語言和所有其他(有聲)語言都不一樣,它是一個視覺語言。
隨之而來的一個問題是:“小聰”的訓(xùn)練數(shù)據(jù)從何而來?
陳偉解釋稱,手語語言如何轉(zhuǎn)換成計算機語言,之前行業(yè)在做手語語言體系時并沒有特別明確的做法,要么是純語言學(xué),要么是計算機相關(guān)背景的人根據(jù)自己的想象做手語。
在搜狗團隊的認知中,手語本身是沒有可記錄的文字信息的,因為它本身就是視覺信息。
《國家通用手語詞典》一共8000多個詞,“小聰”基于《國家通用手語詞典》進行健聽人語言與聽障者手語語言的機器翻譯,在這個過程中,為了構(gòu)建用于模型訓(xùn)練的數(shù)據(jù)庫,搜狗做了三方面工作:
第一,從語序到選詞,我們會考慮把健聽人的語言和聽障人士的語言做一個平行的翻譯,這樣就可以積累大量的資源,用這樣的資源作為翻譯系統(tǒng)的數(shù)據(jù);
第一,將手語詞匯轉(zhuǎn)化成用文字方式或用技術(shù)方式標注出來;
第二,構(gòu)建健聽人和聽障人士之間語序的平行翻譯語料,這需要大量的機器翻譯庫;
第三,通過預(yù)先捕捉大量真人動作和表情數(shù)據(jù),對構(gòu)建起的3D模型進行模型訓(xùn)練,因為搜狗走的是超寫實模型,這件事情每個環(huán)節(jié)都有很大的資源和研發(fā)投入。
據(jù)陳偉透露,從翻譯角度來講,現(xiàn)在初步建立起來的精標數(shù)據(jù)達到幾萬。
其次,搜狗要考慮的第二個問題是——語言體系如何構(gòu)建。
手語和漢語本質(zhì)上不是一個語言體系,存在著諸多結(jié)構(gòu)、表達上的差異。在這之中,“小聰”研發(fā)團隊特別提到三個難點:
第一,手語表達與漢語表達語序的不同。例如,漢語中的“開車不許喝酒”,手語表達出的則是“開車、喝酒、不準”,包括像“北京常常堵車”會被翻譯成“北京、堵車、常常”。
為此,搜狗建立了相應(yīng)的語言規(guī)則嘗試做相應(yīng)的語序轉(zhuǎn)化,通過搜狗構(gòu)建數(shù)據(jù)庫給算法進行訓(xùn)練。
第二,在詞匯上,手語中沒有虛詞和量詞。“我買兩只鉛筆、一本書”,手語表達出來的會是“我買鉛筆、二、書、一”;包括“在、的、了”等程度詞都會省略,“大雪紛飛”用手語表達也不會有一個詞表達“大”、一個詞表達“雪”,而是在“雪”的基礎(chǔ)上加大身體的擺動來體現(xiàn)程度副詞。
為此,搜狗建立了手語到漢語之間的映射辭典,嘗試去解決手語和漢語之間詞匯上的差異問題。
第三,手語里特有的非手控的信息,例如表情、口動、身體的朝向,這部分是在漢語語言中所沒有的。例如同一個手勢表達“我做的好不好”,如果沒有表情的話,大家很難明白手語表達出來的意思,但是如果有皺眉,就是能表達出疑問的語氣。
表情、身體姿態(tài)、口動等非手控信息是搜狗在做“小聰時”遇到最大的難題,目前也在嘗試通過一些建立一些表情庫或存在表情標記的數(shù)據(jù)庫驅(qū)動算法的設(shè)計等規(guī)則的方式來解決這一問題。
最后,搜狗還需要用這樣的語言體系驅(qū)動“數(shù)字人”“小聰”完成自然連貫的手語動作、面部表情表達。
3、“手語翻譯是一個新的話題”
這個事情的難點是我們一幫不懂手語的工程師在做事情,特別容易陷入到自己的煙囪里面。
陳偉一語道破研發(fā)團隊立項初期的窘境。
在進行過深入研究后,陳偉發(fā)現(xiàn),手語翻譯是一個新的話題。
我們同傳上線了這么多年,原來做的中英翻譯、中日翻譯等結(jié)構(gòu)都是一樣的,但是放在手語上又不一樣了,它有一些新的話題。
為此,陳偉請來了制定手語標準的殘聯(lián)及相關(guān)協(xié)會專家、教手語的手語老師、做手語推廣的專業(yè)人士,由這些人組成了搜狗手語AI合成主播語言體系、產(chǎn)品體系、研發(fā)體系之外的智囊團作為顧問團隊。
從立項之初,搜狗就一直與這一顧問團隊保持著緊密聯(lián)系,這也成為搜狗手語AI合成主播在技術(shù)迭代過程中不至于偏離最終用戶的一個保障。
“數(shù)字人”的一個終極目標是手、嘴、表情、姿態(tài)的實時聯(lián)動,完美復(fù)刻真人表達能力,這也正是手語對表達能力的需求。
據(jù)搜狗官方信息顯示,“小聰”在測評中可懂度已經(jīng)可以達到85%以上,能夠進行有效信息傳遞。
對此,陳偉也向雷鋒網(wǎng)解釋:
可懂度85%,跟(語音)識別準確率98%是兩個概念。識別率是客觀指標,這個字到底對還是錯的問題;可懂度更強調(diào)聽障人士的體驗,我在表達的時候,翻譯得準,“數(shù)字人”表達得準,這個鏈條太長了,在這件事上每個環(huán)節(jié)都得做好,串聯(lián)起來才會得到一個比較滿意的效果。
與此同時,陳偉也指出:
數(shù)據(jù)量足夠的話,提升讀懂度在技術(shù)上不是特別大的問題,不過,數(shù)據(jù)資源的積累需要比較長的時間成本,我們在快速推進,但還是需要有時間積累。