加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1、研發(fā)初衷:聽障人士看字幕,如學(xué)外語般艱辛
    • 2、研發(fā)歷路:手語是門“視覺語言”
    • 3、“手語翻譯是一個新的話題”
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

一幫不懂手語的工程師研發(fā)出了會比手語的AI主播

2021/05/24
106
閱讀需 12 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

漢語是門“有聲語言”,手語是門“視覺語言”。

雷鋒網(wǎng)消息,5月17日,搜狗CEO王小川在搜狐科技5G&AI峰會對外發(fā)布了新一代搜狗AI合成主播——手語AI合成主播“小聰”。

作為搜狗AI合成主播經(jīng)過兩年多時間迭代后的新品,手語AI合成主播集成了超寫實3D數(shù)字人建模、機器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實時面部動作生成及驅(qū)動技術(shù)。據(jù)搜狗官方信息顯示,在組織的聾人可懂度測評中,搜狗手語AI合成主播可懂度達到了85%以上。

搜狗這款手語AI合成主播研發(fā)初衷是什么?

為什么有了語音識別生成字幕技術(shù)后,還要做搜狗手語AI合成主播?

搜狗手語AI合成主播與一脈相承的語音識別、AI分身在技術(shù)研發(fā)過程中又有何異同?

……

這些問題都在5月19日的媒體溝通會上由搜狗AI交互技術(shù)部總經(jīng)理陳偉及他的團隊進行了一一解答。

1、研發(fā)初衷:聽障人士看字幕,如學(xué)外語般艱辛

2018年11月,搜狗與新華社合作研發(fā)的AI合成主播正式問世,幾經(jīng)迭代后,在2020年5月,又與新華社聯(lián)合推出了3D AI合成主播。

當時陳偉和他的團隊在為搜狗為3D AI合成主播規(guī)劃未來發(fā)展方向時,著重考慮了三個方面:

第一,要把3D能力做好;

第二,我們希望搜狗在“數(shù)字人”這個方向上有自己更高的技術(shù)壁壘;

第三,我們要找到有強烈需求的場景。

綜合考慮場景、渠道和技術(shù)迭代中的創(chuàng)新后,2020年5月,手語AI合成主播在搜狗內(nèi)部正式立項。

既然有字幕了,還要手語干什么?

這也是搜狗手語AI合成主播立項之初,陳偉當時需要考慮的問題。

對此,陳偉總結(jié)了三方面原因:

第一,并非所有聽障人士能看懂字幕。

在我國2700萬聽障人士中,整體受教育程度參差不齊,有高中、大學(xué)學(xué)歷的聽障人士在這一群體中仍然只占非常小的比例,現(xiàn)在大家對字幕獲取的能力還在逐漸培養(yǎng)中,要想讓絕大部分聽障人士看懂字幕還有很長的路要走。

第二,「有字幕」這件事兒和「做手語」不是必須二選一的。

我們在了解信息、獲取信息過程中必然會通過多種方式,我們自己在看電影的時候,有時候盡管中文的電影我們可能也會看字幕,大家本能的想法是我怎么能更快更高效的獲取信息,他能看懂字幕更好,如果看不懂,還有手語可以提供信息。

第三,手語語言和有聲語言之間是完全不同的語言體系,聽障人士對有聲語言的接受程度類似健聽人對第二外語的接受程度。

聽障人士即便學(xué)習(xí)了漢語,對他來說也是第二語言,就像我們在學(xué)習(xí)英語過程中,盡管我們學(xué)習(xí)了很長時間,但還是很難產(chǎn)生熟悉的感覺。

與此同時,聽障人士在學(xué)習(xí)漢語的過程中其實天生是有障礙的,因為漢語或者普通話更多的是表音文字,每個字都有發(fā)音,我們之所以能夠快速學(xué)習(xí)語音,是因為有語境。我們跟別人溝通的時候,溝通的前提是眼睛看著大家,看到了唇形,同時聽到了聲音,結(jié)合在一起是多模態(tài)的,但是聽障人士在聽力上天生有障礙,就少了一個因素讓他更快地學(xué)習(xí)有聲語言。他們之所以學(xué)手語學(xué)得快,是因為手語是視覺語言,不需要輔以聲音進行理解。從這個角度來看,手語短期內(nèi)不可能完全被字幕替換掉,它仍然是聽障人士的主要學(xué)習(xí)方式,手語表達也更符合聽障人士的習(xí)慣。

就在搜狗手語AI合成主播發(fā)布的同時,搜狗還對外發(fā)布了柳巖同款明星“數(shù)字人”。

據(jù)陳偉透露,柳巖同款明星“數(shù)字人”從錄制到上線用了有一個月的時間,其中錄制僅用了兩個半天(合計一天),數(shù)據(jù)標注花了30%-40%的時間,剩下的則是技術(shù)研發(fā)和迭代用的時間。

而手語AI合成主播“小聰”的技術(shù)難度要遠遠大于明星“數(shù)字人”。

2、研發(fā)歷路:手語是門“視覺語言”

搜狗研發(fā)了多代AI合成主播,在語音識別技術(shù)上也積累頗豐。然而,手語AI合成主播對于搜狗而言,仍是一個全新的領(lǐng)域。

據(jù)陳偉介紹,搜狗在做手語AI合成主播“小聰”時,主要做了三方面工作:

「語言側(cè)手語的研究」、「語言體系的翻譯」和「表征表達」。

首先,在研發(fā)“小聰”過程中,搜狗最先遇到的就是手語數(shù)據(jù)庫建立的問題。

搜狗開始接觸手語發(fā)現(xiàn)了一個問題:手語語言和所有其他(有聲)語言都不一樣,它是一個視覺語言。

隨之而來的一個問題是:“小聰”的訓(xùn)練數(shù)據(jù)從何而來?

陳偉解釋稱,手語語言如何轉(zhuǎn)換成計算機語言,之前行業(yè)在做手語語言體系時并沒有特別明確的做法,要么是純語言學(xué),要么是計算機相關(guān)背景的人根據(jù)自己的想象做手語。

在搜狗團隊的認知中,手語本身是沒有可記錄的文字信息的,因為它本身就是視覺信息。

《國家通用手語詞典》一共8000多個詞,“小聰”基于《國家通用手語詞典》進行健聽人語言與聽障者手語語言的機器翻譯,在這個過程中,為了構(gòu)建用于模型訓(xùn)練的數(shù)據(jù)庫,搜狗做了三方面工作:

第一,從語序到選詞,我們會考慮把健聽人的語言和聽障人士的語言做一個平行的翻譯,這樣就可以積累大量的資源,用這樣的資源作為翻譯系統(tǒng)的數(shù)據(jù);

第一,將手語詞匯轉(zhuǎn)化成用文字方式或用技術(shù)方式標注出來;

第二,構(gòu)建健聽人和聽障人士之間語序的平行翻譯語料,這需要大量的機器翻譯庫;

第三,通過預(yù)先捕捉大量真人動作和表情數(shù)據(jù),對構(gòu)建起的3D模型進行模型訓(xùn)練,因為搜狗走的是超寫實模型,這件事情每個環(huán)節(jié)都有很大的資源和研發(fā)投入。

據(jù)陳偉透露,從翻譯角度來講,現(xiàn)在初步建立起來的精標數(shù)據(jù)達到幾萬。

其次,搜狗要考慮的第二個問題是——語言體系如何構(gòu)建。

手語和漢語本質(zhì)上不是一個語言體系,存在著諸多結(jié)構(gòu)、表達上的差異。在這之中,“小聰”研發(fā)團隊特別提到三個難點:

第一,手語表達與漢語表達語序的不同。例如,漢語中的“開車不許喝酒”,手語表達出的則是“開車、喝酒、不準”,包括像“北京常常堵車”會被翻譯成“北京、堵車、常常”。

為此,搜狗建立了相應(yīng)的語言規(guī)則嘗試做相應(yīng)的語序轉(zhuǎn)化,通過搜狗構(gòu)建數(shù)據(jù)庫給算法進行訓(xùn)練。

第二,在詞匯上,手語中沒有虛詞和量詞。“我買兩只鉛筆、一本書”,手語表達出來的會是“我買鉛筆、二、書、一”;包括“在、的、了”等程度詞都會省略,“大雪紛飛”用手語表達也不會有一個詞表達“大”、一個詞表達“雪”,而是在“雪”的基礎(chǔ)上加大身體的擺動來體現(xiàn)程度副詞。

為此,搜狗建立了手語到漢語之間的映射辭典,嘗試去解決手語和漢語之間詞匯上的差異問題。

第三,手語里特有的非手控的信息,例如表情、口動、身體的朝向,這部分是在漢語語言中所沒有的。例如同一個手勢表達“我做的好不好”,如果沒有表情的話,大家很難明白手語表達出來的意思,但是如果有皺眉,就是能表達出疑問的語氣。

表情、身體姿態(tài)、口動等非手控信息是搜狗在做“小聰時”遇到最大的難題,目前也在嘗試通過一些建立一些表情庫或存在表情標記的數(shù)據(jù)庫驅(qū)動算法的設(shè)計等規(guī)則的方式來解決這一問題。

最后,搜狗還需要用這樣的語言體系驅(qū)動“數(shù)字人”“小聰”完成自然連貫的手語動作、面部表情表達。

3、“手語翻譯是一個新的話題”

這個事情的難點是我們一幫不懂手語的工程師在做事情,特別容易陷入到自己的煙囪里面。

陳偉一語道破研發(fā)團隊立項初期的窘境。

在進行過深入研究后,陳偉發(fā)現(xiàn),手語翻譯是一個新的話題。

 

我們同傳上線了這么多年,原來做的中英翻譯、中日翻譯等結(jié)構(gòu)都是一樣的,但是放在手語上又不一樣了,它有一些新的話題。

為此,陳偉請來了制定手語標準的殘聯(lián)及相關(guān)協(xié)會專家、教手語的手語老師、做手語推廣的專業(yè)人士,由這些人組成了搜狗手語AI合成主播語言體系、產(chǎn)品體系、研發(fā)體系之外的智囊團作為顧問團隊。

從立項之初,搜狗就一直與這一顧問團隊保持著緊密聯(lián)系,這也成為搜狗手語AI合成主播在技術(shù)迭代過程中不至于偏離最終用戶的一個保障。

“數(shù)字人”的一個終極目標是手、嘴、表情、姿態(tài)的實時聯(lián)動,完美復(fù)刻真人表達能力,這也正是手語對表達能力的需求。

據(jù)搜狗官方信息顯示,“小聰”在測評中可懂度已經(jīng)可以達到85%以上,能夠進行有效信息傳遞。

對此,陳偉也向雷鋒網(wǎng)解釋:

可懂度85%,跟(語音)識別準確率98%是兩個概念。識別率是客觀指標,這個字到底對還是錯的問題;可懂度更強調(diào)聽障人士的體驗,我在表達的時候,翻譯得準,“數(shù)字人”表達得準,這個鏈條太長了,在這件事上每個環(huán)節(jié)都得做好,串聯(lián)起來才會得到一個比較滿意的效果。

與此同時,陳偉也指出:

數(shù)據(jù)量足夠的話,提升讀懂度在技術(shù)上不是特別大的問題,不過,數(shù)據(jù)資源的積累需要比較長的時間成本,我們在快速推進,但還是需要有時間積累。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜