8月20-24日,全球最大的綜合性語(yǔ)音領(lǐng)域的科技盛會(huì)——INTERSPEECH 2023在愛(ài)爾蘭都柏林舉辦。網(wǎng)易易盾兩篇學(xué)術(shù)論文被INTERSPEECH官方錄用,與世界頂級(jí)學(xué)術(shù)圈層共享學(xué)術(shù)研究成果。
這是網(wǎng)易易盾AI團(tuán)隊(duì)繼ICASSP后,論文再次被國(guó)際性頂級(jí)學(xué)術(shù)會(huì)議錄用。至此,網(wǎng)易易盾已解鎖全球兩大語(yǔ)音學(xué)術(shù)頂會(huì)論文全部錄用的成就。
INTERSPEECH在國(guó)際上享有極高盛譽(yù)并具有廣泛的學(xué)術(shù)影響力,是由國(guó)際語(yǔ)音通訊協(xié)會(huì)(ISCA)創(chuàng)辦的旗艦級(jí)國(guó)際會(huì)議,也是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì)。它涵蓋了語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音增強(qiáng)、自然語(yǔ)言處理等多個(gè)領(lǐng)域,每年都吸引了來(lái)自世界各地的數(shù)千名學(xué)者、工程師和企業(yè)家參與交流和展示。
(相關(guān)資料圖)
據(jù)INTERSPEECH 2023的統(tǒng)計(jì)數(shù)據(jù),有上千人參與了會(huì)議,這些參會(huì)者來(lái)自全球數(shù)十個(gè)國(guó)家/地區(qū),其中包括中國(guó)、美國(guó)、日本、英國(guó)、法國(guó)、德國(guó)、印度等。會(huì)議共收到來(lái)自全球頂級(jí)實(shí)驗(yàn)室、頂級(jí)大學(xué)、頂級(jí)研究團(tuán)隊(duì)共3000篇以上論文投稿,網(wǎng)易易盾在INTERSPEECH 2023上有2篇論文入選,主題分別為《Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning》、《Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech Recognition》。
同時(shí),易盾AI算法研究團(tuán)隊(duì)也前往現(xiàn)場(chǎng),與各研究人員會(huì)面,圍繞我們最新的語(yǔ)音技術(shù)進(jìn)行問(wèn)答和演示。這有助于全球語(yǔ)音學(xué)術(shù)界的研究水平,為研究人員圈層的學(xué)術(shù)交流提供參考。
01.
“Hello,賈維斯”?語(yǔ)音AI可以實(shí)現(xiàn)!
"你好,賈維斯?!?/p>
“隨時(shí)為您效勞,先生。”
電影《復(fù)仇者聯(lián)盟》中鋼鐵俠與其AI智能管家賈維斯,為我們展示出一個(gè)充滿(mǎn)科技設(shè)想的未來(lái)智能家庭場(chǎng)景,彼時(shí),我們或許驚嘆于電影的超現(xiàn)實(shí)概念描繪,但放眼到今天,隨著人工智能(AI,Artificial Intelligence)技術(shù)的不斷進(jìn)步,科幻電影的設(shè)想照進(jìn)現(xiàn)實(shí)并非遙不可及。
在電影中, 鋼鐵俠與其AI智能助手賈維斯的溝通協(xié)作全部都是通過(guò)語(yǔ)音對(duì)話實(shí)現(xiàn)。因此,如果想要盡早將這樣的未來(lái)場(chǎng)景搬入現(xiàn)實(shí),語(yǔ)音識(shí)別與人工智能技術(shù)的結(jié)合與研究,是關(guān)鍵中的關(guān)鍵。語(yǔ)音識(shí)別是指將人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)換為文本或命令的技術(shù),它涉及到語(yǔ)音信號(hào)處理、自然語(yǔ)言處理等領(lǐng)域。語(yǔ)音識(shí)別技術(shù)可以讓我們通過(guò)語(yǔ)音來(lái)與電腦或手機(jī)等設(shè)備進(jìn)行交互,提高了輸入和操作的效率和便捷性。例如,我們可以通過(guò)語(yǔ)音來(lái)搜索信息、發(fā)送短信、打電話、控制智能家居等。像“賈維斯”這樣的AI語(yǔ)音助手就是一種基于語(yǔ)音識(shí)別技術(shù)的智能服務(wù),它可以理解用戶(hù)的語(yǔ)音指令,并根據(jù)用戶(hù)的需求提供相應(yīng)的服務(wù)或信息。
當(dāng)然,一種技術(shù)的突破與創(chuàng)新,應(yīng)用在個(gè)人生活場(chǎng)景中只是該技術(shù)價(jià)值中的一部分,將技術(shù)結(jié)合到企業(yè)服務(wù)方向的應(yīng)用可以讓價(jià)值最大化。
02.
對(duì)比學(xué)習(xí)、語(yǔ)種轉(zhuǎn)碼與數(shù)字內(nèi)容風(fēng)控
以網(wǎng)易易盾的兩篇論文為例,我們將解釋?zhuān)Z(yǔ)音AI技術(shù)是如何應(yīng)用到數(shù)字內(nèi)容風(fēng)控服務(wù)場(chǎng)景并且為客戶(hù)服務(wù)提升價(jià)值。
在易盾智能語(yǔ)音檢測(cè)業(yè)務(wù)場(chǎng)景中,存在實(shí)時(shí)(流式)檢測(cè)需求和離線(非流式)檢測(cè)需求。流式\非流式一體化模型是指一個(gè)模型可以同時(shí)滿(mǎn)足流式場(chǎng)景和非流式場(chǎng)景的識(shí)別需求,它降低了模型開(kāi)發(fā),訓(xùn)練和部署的成本。在實(shí)際的使用過(guò)程中模型性能仍然是易盾AI團(tuán)隊(duì)關(guān)注的重點(diǎn),大多數(shù)場(chǎng)景下一體化模型往往存在兩個(gè)性能差距,如下圖所示。
(1)一體化模型的非流式識(shí)別性能優(yōu)于流式識(shí)別。
(2)完全非流式模式訓(xùn)練出來(lái)的純離線模型性能優(yōu)于一體化模型中的離線解碼模式。
易盾AI團(tuán)隊(duì)希望這兩個(gè)性能差距越小越好,一方面希望流式識(shí)別的效果能向非流式識(shí)別靠近,另一方面希望一體化模型的非流式識(shí)別和純離線模型相比沒(méi)有性能損失。如何進(jìn)一步提升一體化模型性能是一個(gè)具有挑戰(zhàn)的問(wèn)題。從模型表征的角度出發(fā),如果流式表征能夠向非流式靠攏,那么流式識(shí)別內(nèi)容也會(huì)與非流式識(shí)別更相似,也就意味著流式識(shí)別的效果能向非流式識(shí)別靠近。
基于這個(gè)動(dòng)機(jī),易盾AI算法團(tuán)隊(duì)提出利用對(duì)比學(xué)習(xí)方法來(lái)縮小流式和非流式模式之間的內(nèi)在表征差距,從而提升一體化模型的性能,如下圖所示。
易盾AI算法團(tuán)隊(duì)把每一幀的流式表示和非流式表示作為正樣本對(duì),同時(shí)從非流式模式的其他幀隨機(jī)采樣多個(gè)負(fù)樣本,利用對(duì)比學(xué)習(xí)拉近正樣本之間的距離,同時(shí)加大負(fù)樣本之間的差異化。通過(guò)讓流式和非流式相互對(duì)比學(xué)習(xí),同時(shí)完成兩種模式的訓(xùn)練。
研究在開(kāi)源數(shù)據(jù)集和易盾業(yè)務(wù)場(chǎng)景驗(yàn)證了算法的有效性,結(jié)果表明基于對(duì)比學(xué)習(xí)的一體化模型取得了顯著的性能提升。在業(yè)務(wù)數(shù)據(jù)上,該方法短期內(nèi)幫助網(wǎng)易易盾取得了原本需要花一個(gè)季度數(shù)據(jù)積累才能獲得的效果提升。
此外,在多語(yǔ)言語(yǔ)音場(chǎng)景中,廣泛存在多種語(yǔ)言中的單語(yǔ)語(yǔ)音和包含兩種或以上語(yǔ)言的語(yǔ)碼轉(zhuǎn)換語(yǔ)音。因此,多語(yǔ)種語(yǔ)音識(shí)別系統(tǒng)需要同時(shí)支持以上兩種場(chǎng)景語(yǔ)音的識(shí)別。為此易盾AI團(tuán)隊(duì)設(shè)計(jì)了一種引入語(yǔ)種“路由”機(jī)制和混合專(zhuān)家系統(tǒng)(MOE)的混合語(yǔ)種識(shí)別方法,我們簡(jiǎn)稱(chēng)為L(zhǎng)R-MoE。LR-MoE在混合專(zhuān)家模塊將不同語(yǔ)種交給相對(duì)應(yīng)的“專(zhuān)家”模塊進(jìn)行處理,在降低計(jì)算開(kāi)銷(xiāo)的同時(shí)又提升了多語(yǔ)種和混合語(yǔ)種的識(shí)別效果。
實(shí)際業(yè)務(wù)中,用戶(hù)在使用多語(yǔ)種語(yǔ)音識(shí)別系統(tǒng)時(shí)往往存在以下需求:
1. 人工配置語(yǔ)種實(shí)現(xiàn)對(duì)特定語(yǔ)種的語(yǔ)音識(shí)別能力,如特定國(guó)家或地區(qū)的內(nèi)容平臺(tái);
2. 未知語(yǔ)種信息時(shí)支持對(duì)任意語(yǔ)種語(yǔ)音的自動(dòng)識(shí)別,如多語(yǔ)種內(nèi)容平臺(tái)。
結(jié)合實(shí)際業(yè)務(wù)需求和上述提出的方法,易盾AI團(tuán)隊(duì)設(shè)計(jì)了基于LR-MoE的多語(yǔ)種語(yǔ)音識(shí)別架構(gòu),通過(guò)模型內(nèi)置、靈活可配的幀級(jí)語(yǔ)種分類(lèi)器,支持多語(yǔ)言多需求的智能語(yǔ)音內(nèi)容檢測(cè)。
上述架構(gòu)能同時(shí)支持多語(yǔ)言單語(yǔ)和語(yǔ)碼轉(zhuǎn)換語(yǔ)音的識(shí)別,減少語(yǔ)種間的混淆,在實(shí)際多語(yǔ)種業(yè)務(wù)中識(shí)別效果相對(duì)提升10%以上;并支持用戶(hù)主動(dòng)配置語(yǔ)言和自適應(yīng)識(shí)別兩種使用模式,賦能出海企業(yè)的智能語(yǔ)音內(nèi)容風(fēng)控。
03.
學(xué)術(shù)頂會(huì)??停阂锥蹵I實(shí)驗(yàn)室
網(wǎng)易易盾作為網(wǎng)易集團(tuán)旗下一站式數(shù)字內(nèi)容風(fēng)控品牌,為面向數(shù)字化業(yè)務(wù)的客戶(hù)提供專(zhuān)業(yè)可靠的安全服務(wù),涵蓋內(nèi)容安全、業(yè)務(wù)安全、移動(dòng)安全三大領(lǐng)域,全方位保障客戶(hù)業(yè)務(wù)合規(guī)、穩(wěn)健和安全運(yùn)營(yíng)。
網(wǎng)易易盾很早就認(rèn)識(shí)到技術(shù)的創(chuàng)新可以為產(chǎn)品和服務(wù)帶來(lái)呈幾何增長(zhǎng)的價(jià)值提升,設(shè)立了網(wǎng)易易盾AI實(shí)驗(yàn)室,此次入選的兩篇論文均出自于該團(tuán)隊(duì)。作為網(wǎng)易易盾下設(shè)的始終走在人工智能研究前沿的技術(shù)團(tuán)隊(duì),易盾AI實(shí)驗(yàn)室致力于圍繞精細(xì)化、輕量化、敏捷化打造全面嚴(yán)謹(jǐn)、安全可信的AI技術(shù)能力,不斷提升數(shù)字內(nèi)容風(fēng)控服務(wù)水平。在這之前,團(tuán)隊(duì)曾獲得多項(xiàng) AI 算法競(jìng)賽冠軍及重要獎(jiǎng)勵(lì)榮譽(yù):
· 2019年第一屆中國(guó)人工智能大賽 旗幟識(shí)別賽道最高級(jí)A級(jí)證書(shū);
· 2020年第二屆中國(guó)人工智能大賽 視頻深度偽造檢測(cè)賽道最高級(jí)A級(jí)證書(shū);
· 2021年第三屆中國(guó)人工智能大賽 視頻深度偽造檢測(cè)和音頻深度偽造檢測(cè)賽道兩項(xiàng)最高級(jí)A級(jí)證書(shū);
· 2021年中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”;
· 2021年第十六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC2021)“長(zhǎng)短視頻多語(yǔ)種多模態(tài)識(shí)別競(jìng)賽”—漢語(yǔ)長(zhǎng)短視頻直播語(yǔ)音關(guān)鍵詞(VKW)雙賽道冠軍;
· 2021年獲得浙江省政府頒發(fā)的科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng);
· 2022年ICPR多模態(tài)字幕識(shí)別比賽(Multimodal Subtitle Recognition, 簡(jiǎn)稱(chēng) MSR 競(jìng)賽,國(guó)內(nèi)首個(gè)多模態(tài)字幕識(shí)別大賽)賽道三“融合視覺(jué)和音頻的多模態(tài)字幕識(shí)別系統(tǒng)”冠軍;
· 2023年,《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改進(jìn),實(shí)現(xiàn)更強(qiáng)的模型結(jié)構(gòu))》論文入選ICASSP。
已成為頂級(jí)學(xué)術(shù)會(huì)議??偷木W(wǎng)易易盾AI實(shí)驗(yàn)室,還將在包括語(yǔ)音AI在內(nèi)的等各AI方向上深入研究,持續(xù)用技術(shù)為服務(wù)創(chuàng)造更大的空間。
“賈維斯”在彼時(shí)2008年《鋼鐵俠》上映之時(shí),看似觸不可及。此時(shí)回頭再看,也許“賈維斯”都顯得稍欠想象力。可以確定的是,我們正處在科技大爆炸的前夕,5G、人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等等這一切底層技術(shù)的研究都將在未來(lái)的數(shù)年內(nèi)不斷誕生各種可以應(yīng)用在生活中的產(chǎn)品和服務(wù)。
在數(shù)字內(nèi)容風(fēng)控領(lǐng)域的語(yǔ)音AI研究和應(yīng)用,網(wǎng)易易盾并不只追求快,我們更加希望我們的步伐是穩(wěn)健和堅(jiān)定的,以及切實(shí)為客戶(hù)創(chuàng)造價(jià)值。
(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對(duì)本廣告內(nèi)容的真實(shí)性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),請(qǐng)自行核實(shí)相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)
(責(zé)任編輯:周文凱 )關(guān)鍵詞: