加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • M2VoC首戰(zhàn)告捷
    • 在猿輔導搞技術是一種什么體驗?
    • 隱藏在教育背后的技術實力
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

拿到國際AI比賽冠軍的,居然是個搞教育的

2021/03/31
110
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

最近,聽到不少語音圈兒的盆友都在議論一場比賽。

什么超少樣本啊,什么亂入啊,還有什么教育……

咦,“教育”是什么鬼?

仔細打聽才知道,原來是剛剛落幕的國際TTS(語音合成)賽事M2VoC。

M2VoC,又稱多說話人多風格音色克隆大賽,就是給你極少的語音樣本(最少5個的那種),讓你合成同種風格的聲音。

這不就一場常規(guī)的技術玩家競技盛會嘛?

 

盆友表示,意外就意外在,這次的子賽道冠軍里,混進了一個“異類”——

搞直播網課的猿輔導。

搞在線教育,還能搞出個AI冠軍???

據(jù)說,獲獎團隊當時還有其他緊急任務,就隨機派了兩個人,硬擠了5天時間來參賽。

疑似凡爾賽,而且有證據(jù)!

但橋豆麻袋,猿輔導,確定是一家在線教育公司哈?!

M2VoC首戰(zhàn)告捷

還是先來看看比賽本身。

猿輔導亂入?yún)⒓拥谋荣?,是聲學、語音和信號處理國際會議(ICASSP)信號處理挑戰(zhàn)期間任務——多說話人多風格音色克隆大賽(M2VoC)。

而ICASSP作為IEEE信號處理協(xié)會組織的年度會議,也是信號處理及應用方面最權威的會議之一。

據(jù)稱,這還是世界上第一個小資源音色克隆挑戰(zhàn)賽。

大賽共分為兩個賽道,一個少樣本賽道,另一個是比“少樣本”更少的賽道。

在極少樣本賽道,參賽者需要針對不同說話風格和5個可用音色樣本進行校驗和測試。

每個賽道又分為開集和閉集。開集,即用任何公開數(shù)據(jù);閉集,即只能用官方給到的數(shù)據(jù)。

最終共有150多支隊伍參賽,而在極少樣本開集賽道中猿輔導獲得了第一。

 

另外在少樣本開集、極少樣本閉集的賽道里,分別獲得了第4、第5的成績。

實際上,猿輔導此次比賽中呈現(xiàn)的,并非實驗室技術。

而是一個早已經在小猿口算、猿輔導網課等產品中的技術,用于英語發(fā)音、題干讀題等場景。

比如說讀一個數(shù)學題,有些幼齡的小朋友字認不全,需要讀出來讓孩子理解;另外,老師們也可以設定一個題目,根據(jù)題目的文字合成一個音頻。

尤其是在英語聽力上的應用,發(fā)音要求更為嚴苛。

但一線老師反饋說,這比公開服務更好用。

以前,由老師出題,然后找正規(guī)的英音、美音老師錄制。一般外包公司制作一周才返回語音包。

如果有修改,那就最少2周,遇到節(jié)假日就更不可控了。

現(xiàn)在通過語音合成,一句10秒長度的句子,不到1秒就可以完成語音轉化,效率上有很大的提升。

這樣一來,2個人準備5天時間就參加比賽,就也不是那么夸張了。

只是沒想到的是,第一次征戰(zhàn)國際賽事的他們,就獲得子賽道第一的成績。

對于這樣的結果,他們表示有點意外。

拿到(極少樣本開集)子賽道第一名,我們有點意外。技術領域的大牛很多,我們也會繼續(xù)努力!

基本思路跟平時的訓練流程一致,由大規(guī)模樣本的預訓練和小規(guī)模樣本的微調訓練組成。

至于獲獎的原因,團隊內部分析認為,除了訓練數(shù)據(jù)選的比較好之外,他們在語音合成的前端所采用的停頓、韻律模型,讓合成出來的語音效果更加自然了。

一般來說,通用的語音合成技術,大都將目光聚焦在合成字眼的準確性。其他有如準確發(fā)音、韻律情緒、適當停頓等問題通常不會顧及。

就是一個莫得感情的朗讀機器~

但在教育領域,這些平時容易忽視的痛點,就變成了技術團隊重點攻克的對象。

既要保證在遇到類似多音字這樣的情況時,發(fā)出正確的讀音,又需要在面向低齡兒童的教學場景中,讓拼讀更加自然、富有韻律不生澀。

不能因為我冷漠,就耽誤了小孩學習呀?。ㄊ謩庸奉^)

也恰好因為這一點,猿輔導得到了主辦方、評委會的肯定。

在猿輔導搞技術是一種什么體驗?

所以,猿輔導作為一家在線教育公司,為什么會出現(xiàn)在語音合成技術的國際賽場上?

其實緣于一個偶然的契機。

當時,這次的參賽隊員楊明祺將隨手刷到的大賽信息轉發(fā)到語音組群里。就在研發(fā)同學們的日常吹水中,他們突然想到,猿輔導在這方面已有技術積累,何不趁著這個比賽跟其他隊伍切磋交流一下,看看在統(tǒng)一任務下別人有什么不一樣的想法可以借鑒學習。

這種保持對前沿技術關注、主動學習的操作,倒并不是臨時起意,而是整個技術部門再正常不過的日常。

從他們堅持已久的一個習慣中也可見一斑——

Paper reading,是猿輔導AI Lab自2014年成立以來一直堅持至今的一項活動。

7年來,團隊每周都會安排一位技術同學在組會時分享一篇前沿技術論文,并與其他同事深入交流討論。

起初,整個實驗室的都要一起參加這樣的閱讀會。后來隨著規(guī)模的不斷擴大,改為下設5個實驗室分別舉辦,自己實驗室的同學當然必須參加,其他實驗室的人也可以根據(jù)興趣參與進來。

不同技術之間的碰撞,也成為了猿輔導獨有的技術方法論。

語音實驗室語音合成組的楊明祺,就分享了一段經歷。

在聽到降噪小組分享有關提高信噪比的最新技術時,語音合成組就想到,是否能將這樣的技術應用到TTS上來。因為平時采集的訓練樣本,錄制環(huán)境不一,音質無法保證,而引入相關技術,就能從數(shù)據(jù)層面來提升最終合成語音的質量。

除此之外,作為一家在線教育公司,猿輔導有更豐富、更具體的落地場景,因此也就要比一般的技術公司更看重技術落地。

低延時直播,就是這樣一個例子。

市面上通用的直播技術,可能有1-3秒、甚至更長的延時,對于直播帶貨這個場景下影響不大,但要是在教育教學上,學生和老師有著很強的互動需求,幾秒的延時就會影響教學體驗。

就比如,老師在課上提問,學生正在思考的時候,老師就已經給出答案講下一個問題了。

因此,就需要將延時技術從3秒降到0.3秒,來維持課堂效果。

語音組馬楠也表示,

很多時候,一線的教學老師提出需求,研發(fā)人員就要想辦法結合最先進的技術來滿足。

所以平時看到一些新的論文、技術方案,也會想著能具體落到什么場景,能否配合一線老師教學。

也正因為看重落地的本質,他們隨時保持著Ready的狀態(tài)。

什么時候有新的需求,就想著法兒的用技術去滿足,也因此團隊成員們練就了能快速適應業(yè)務轉型的本領。

馬楠說,他們這個語音合成組,大多本來不是這個專業(yè)的,比如有的成員過去是做搜索的,可以說都是逐漸摸索學習過來的。

現(xiàn)在他們從一個想法到Demo,只需要半個月到1個月的時間就可以達成。

因此,也不同于其他技術團隊的成就感,他們成就感的來源,更多是一線老師的反饋。

“比公開服務更好用”,就是他們接收到的最好的嘉獎。

隱藏在教育背后的技術實力

事實上,雖然外界對猿輔導的認知更多地聚焦在“教育”上,但猿輔導從成立之初,就是一家把“技術”視作核心競爭力的公司。

在2014年,猿輔導就成立了AI Lab,是在線教育行業(yè)內首個成立AI研究院的企業(yè)。

從業(yè)務上看,猿輔導旗下有:拍一下就能秒出解題思路的小猿搜題,用AI幫助老師、家長批改作業(yè)的小猿口算,利用AI打造智能學習模型的斑馬AI課……

其背后所需要的技術支持,不止于語音,還包括視覺、自然語言理解、音視頻等多個領域。

就用斑馬AI課來舉個例子好了。

斑馬AI課作為目前國內面向學齡前兒童的最大在線課程學習平臺,最吸引人的一點就是能做到“因材施教”。

也就是說,不僅僅是根據(jù)小盆友的年紀簡單粗暴地劃分學習階段,而是讓孩子也能自適應學習。

等等,自適應,這不是個教育AI模型的法子嗎?

 

其實是這么回事兒,以猿輔導百億級少兒語言行為大數(shù)據(jù)為基礎,通過對孩子的語言行為進行分析,就能更加細致地了解到孩子當前的學習情況,進而智能地調整課程的難度、“打怪”的路徑。上完網課,還能根據(jù)AI大數(shù)據(jù)分析,生成個性化的學習報告,及時反饋學習成果。

另外,就像之前提到的,通用模型在落地到更加垂直的場景中時,表現(xiàn)往往不盡如人意。比如小朋友咿咿呀呀的發(fā)音,就比常規(guī)的成人語音識別更加困難,需要有針對性地收集數(shù)據(jù)、優(yōu)化模型。

源于這樣的背景,目前,猿輔導已經發(fā)展形成語音實驗室、視覺實驗室、自然語言理解實驗室、音視頻實驗室和基礎支撐五大實驗室。

而作為技術人員的馬楠也強調:

對于我們的產品來說,前沿技術的支持并不是可有可無的,而是產品之所以能成立的核心原因。

以搜題為例,如果OCR的準確率不夠高,搜得不夠準,用戶根本就不會選擇使用。

站在現(xiàn)在這個時間節(jié)點,從用戶選擇的角度來看,猿輔導已經成為國內網課用戶規(guī)模最大的在線教育公司。

而從技術驗證的層面來看,猿輔導曾先后在MS MARCO機器閱讀理解水平測試、斯坦福問答數(shù)據(jù)集兩項世界級NLP賽事中斬獲冠軍,如今也在語音等更多領域的世界賽事上嶄露頭角……

資本對其業(yè)務、技術的認可,也已落在了具體的數(shù)字上:估值155億美金,是全球估值最高的在線教育獨角獸公司。

就在這樣的高速發(fā)展之中,體量越來越大的猿輔導,在重視落地之外,也越來越看重“長期主義”。

馬楠就透露,現(xiàn)在在技術團隊內部,有相當一部分人力投入到了前沿技術的探索、攻關當中。這類研發(fā)工作在短期看來不會立刻被用上,但公司認為,從長期發(fā)展的角度來看,這些積累將成為猿輔導技術護城河的關鍵組成。

最后,再來總結一下,猿輔導究竟是一家什么樣的技術公司?

以在線教育之名,從每個具體場景出發(fā),將AI技術之力在各個產品中得以體現(xiàn)。

如果一項技術研發(fā)的很厲害但沒用上,對猿輔導來說是不太可能的。

因此可以說,猿輔導的AI更具有實用主義色彩。

曾經,中國的教育領域一度被認為格局已成。但以猿輔導為代表的第三代教育科技公司,卻以黑馬之勢登上歷史舞臺,撕開了一條新的進擊之路。

背后的核心關鍵詞,正是技術,正是AI。

而教育在AI等新一代技術驅動之下展現(xiàn)的潛力,或許才剛剛開始。

相關推薦

電子產業(yè)圖譜