1 月 24 日,由昆山杜克大學(xué)、聯(lián)想研究院和北京郵電大學(xué),在 2021 中文口語(yǔ)語(yǔ)言處理國(guó)際會(huì)議(ISCSLP 2021)上發(fā)起的個(gè)性化喚醒語(yǔ)音挑戰(zhàn)賽圓滿(mǎn)結(jié)束,并通過(guò) B 站和 Zoom 線(xiàn)上進(jìn)行了收官研討會(huì)。
挑戰(zhàn)賽吸引了來(lái)自知名高校、研究機(jī)構(gòu)、企業(yè)人工智能部門(mén)以及初創(chuàng)企業(yè)的幾十支團(tuán)隊(duì)參加,包括北京大學(xué)、西北工業(yè)大學(xué)、廈門(mén)大學(xué)、小米、出門(mén)問(wèn)問(wèn)、普強(qiáng)、實(shí)地地產(chǎn)和杭州國(guó)芯等。最終,在比賽的兩個(gè)任務(wù)中,即近場(chǎng)單通道語(yǔ)音個(gè)性化喚醒任務(wù),和遠(yuǎn)場(chǎng)多通道語(yǔ)音個(gè)性化喚醒任務(wù)中,小米、西工大、出門(mén)問(wèn)問(wèn)和實(shí)地地產(chǎn)獲得了前三名的佳績(jī)。
標(biāo)志著本次挑戰(zhàn)賽收官的線(xiàn)上研討會(huì)由昆山杜克李明教授主持,聯(lián)想集團(tuán)副總裁、聯(lián)想研究院人工智能實(shí)驗(yàn)室負(fù)責(zé)人范建平博士開(kāi)場(chǎng)致辭,聯(lián)想研究院語(yǔ)音團(tuán)隊(duì)總監(jiān)汪俊杰和北京郵電大學(xué)葛鳳培教授在會(huì)上宣布了獲獎(jiǎng)團(tuán)隊(duì)并為其頒獎(jiǎng)。此外,研討會(huì)還邀請(qǐng)了 ISCSLP 技術(shù)委員會(huì)主席、香港理工大學(xué)麥文偉教授進(jìn)行了技術(shù)分享。
挑戰(zhàn)賽充分考慮應(yīng)用場(chǎng)景,綜合考察語(yǔ)音喚醒和聲紋識(shí)別的聯(lián)合性能,提供包含數(shù)百人復(fù)雜場(chǎng)景下實(shí)際采集的語(yǔ)音數(shù)據(jù)集,是一套包含近場(chǎng)和遠(yuǎn)場(chǎng)、多通道多設(shè)備、喚醒詞和自由文本相結(jié)合的復(fù)雜數(shù)據(jù)集,可支持復(fù)雜場(chǎng)景語(yǔ)音喚醒、聲紋識(shí)別和語(yǔ)音識(shí)別技術(shù)的研究。
本次賽事中,個(gè)性化語(yǔ)音喚醒考察的是帶有聲紋認(rèn)證功能的語(yǔ)音喚醒技術(shù),喚醒詞是“小樂(lè)小樂(lè)”,每個(gè)目標(biāo)人有 3 句語(yǔ)音作為注冊(cè)樣本,只有目標(biāo)人的講話(huà)內(nèi)容是“小樂(lè)小樂(lè)”時(shí)設(shè)備喚醒才算正確,目標(biāo)人所講的其他內(nèi)容、非目標(biāo)人講的“小樂(lè)小樂(lè)”均不能喚醒設(shè)備。比賽設(shè)置了兩個(gè)賽道,一個(gè)是近場(chǎng)單通道個(gè)性化語(yǔ)音喚醒任務(wù),即聲紋注冊(cè)數(shù)據(jù)和待識(shí)別的測(cè)試數(shù)據(jù)都是由近講設(shè)備采集的單通道語(yǔ)音,另外一個(gè)是遠(yuǎn)場(chǎng)多通道個(gè)性化語(yǔ)音喚醒任務(wù),其中聲紋注冊(cè)數(shù)據(jù)是近講數(shù)據(jù),而測(cè)試數(shù)據(jù)是遠(yuǎn)場(chǎng)設(shè)備采集的多通道語(yǔ)音數(shù)據(jù),體現(xiàn)了實(shí)際應(yīng)用場(chǎng)景中跨信道、復(fù)雜聲學(xué)環(huán)境等因素的影響,是智能家居、會(huì)議場(chǎng)景所面臨的典型問(wèn)題。
在比賽中,有的參賽團(tuán)隊(duì)使用了較為傳統(tǒng)的喚醒模塊和聲紋模塊兩級(jí)串聯(lián)架構(gòu),而有的參賽者采用了多任務(wù)學(xué)習(xí)和聯(lián)合訓(xùn)練的架構(gòu),涵蓋了當(dāng)前業(yè)界主流和先進(jìn)的技術(shù)路線(xiàn)。
所采用的性能評(píng)價(jià)指標(biāo)是檢測(cè)代價(jià)得分(DCF,Detection Cost Function),考慮錯(cuò)誤拒絕(FR, False Rejection)和錯(cuò)誤接受(FA, False Acceptance)兩類(lèi)錯(cuò)誤的不同代價(jià),得分越小代表系統(tǒng)性能越好。
帶有身份認(rèn)證的語(yǔ)音喚醒技術(shù)是語(yǔ)音技術(shù)發(fā)展的重要領(lǐng)域之一,也是智能物聯(lián)網(wǎng)安全發(fā)展的重要驅(qū)動(dòng)力。
聯(lián)想集團(tuán)副總裁、聯(lián)想研究院人工智能實(shí)驗(yàn)室負(fù)責(zé)人范建平博士在線(xiàn)上討論會(huì)上表示:“聯(lián)想作為智能化變革的引領(lǐng)者和賦能者,一直致力于推動(dòng)人工智能核心技術(shù)和應(yīng)用的發(fā)展。通過(guò)舉辦此次活動(dòng),希望能夠加速個(gè)性化語(yǔ)音喚醒技術(shù)的進(jìn)步和落地應(yīng)用,推動(dòng)建立行業(yè)基準(zhǔn),促進(jìn)產(chǎn)學(xué)研進(jìn)一步的合作和發(fā)展。”