近日,IEEE/CVF計(jì)算機(jī)視覺(jué)國(guó)際頂級(jí)會(huì)議(CVPR 2023)公布第五屆人臉表情國(guó)際挑戰(zhàn)賽(ABAW5)的結(jié)果,網(wǎng)易伏羲AI實(shí)驗(yàn)室虛擬人團(tuán)隊(duì)再創(chuàng)佳績(jī):在人臉表情(肌肉)動(dòng)作單元檢測(cè)(AU)、人臉情緒識(shí)別(EXPR)、愉悅度-喚醒度估計(jì)(VA)和情緒反應(yīng)強(qiáng)度估計(jì)(ERI)四個(gè)賽道中,分別獲得了兩項(xiàng)冠軍、亞軍和季軍的優(yōu)異成績(jī),這已是網(wǎng)易伏羲連續(xù)三次在該賽事中獲得AU和EXPR雙賽道冠軍。這些成果充分展現(xiàn)了網(wǎng)易伏羲在人臉表情感知領(lǐng)域的長(zhǎng)期沉淀和技術(shù)實(shí)力。
(資料圖片)
CVPR是全球計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)的學(xué)術(shù)會(huì)議之一,擁有40年歷史,長(zhǎng)期享譽(yù)盛名,是學(xué)術(shù)界和工業(yè)界公認(rèn)的重要會(huì)議之一。ABAW賽事是專注于自然環(huán)境下(in-the-wild)的人臉表情感知的國(guó)際賽事,本屆比賽吸引了眾多國(guó)內(nèi)外知名企業(yè)和高校的參與,包括百度、思圖、天翼云、斯坦福大學(xué)、南加州大學(xué)、南洋理工大學(xué)、萊斯特大學(xué)、清華大學(xué),中國(guó)科學(xué)技術(shù)大學(xué)、浙江大學(xué)、中國(guó)人民大學(xué)等。能從一流競(jìng)賽隊(duì)伍中脫穎而出,離不開伏羲眾包平臺(tái)所提供的高質(zhì)量的數(shù)據(jù)標(biāo)注與管理服務(wù)。
在今年的比賽中,網(wǎng)易伏羲虛擬人團(tuán)隊(duì)繼續(xù)優(yōu)化了自研表情表征技術(shù)和基于transformer的多模態(tài)情緒分析框架,進(jìn)一步提高了模型的識(shí)別準(zhǔn)確性和泛化能力。
網(wǎng)易伏羲成績(jī)一覽
網(wǎng)易伏羲虛擬人團(tuán)隊(duì)解決 ABAW5 挑戰(zhàn)賽難題
人臉表情分析是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要的研究方向,其在人機(jī)交互、心理疾病診斷與治療、刑偵安防等領(lǐng)域有著廣闊的應(yīng)用前景。常見的人臉表情情緒表征包括表情(肌肉)動(dòng)作單元、基本情緒類別以及愉悅度-喚醒度。ABAW5針對(duì)這三種表征分別提出了挑戰(zhàn)賽道,此外,今年還新增了ERI估計(jì)這一項(xiàng)新挑戰(zhàn)。ERI指人類在面對(duì)某種刺激時(shí)所產(chǎn)生情緒反應(yīng)的程度,賽事將其歸納為7個(gè)情緒維度的連續(xù)值。該賽事提供的視頻數(shù)據(jù)存在復(fù)雜多樣的光照、角度、遮擋以及數(shù)據(jù)類別不均衡問(wèn)題,這對(duì)模型的泛化性提出了挑戰(zhàn)。針對(duì)這些挑戰(zhàn),網(wǎng)易伏羲提出自己的解決方案,為行業(yè)的實(shí)際落地提供了新的思路。
pipeline框架圖
利用自研MAE-Face技術(shù),網(wǎng)易伏羲成功實(shí)現(xiàn)了人臉視覺(jué)細(xì)粒度特征集成模型。該技術(shù)借鑒了Masked Autoencoder (MAE) 的結(jié)構(gòu),基于大規(guī)模的人臉數(shù)據(jù)集,采用掩碼的自監(jiān)督訓(xùn)練方式,同時(shí)結(jié)合伏羲在表情表征技術(shù)的長(zhǎng)期積累,實(shí)現(xiàn)了隱空間細(xì)粒度的表情表征能力。同時(shí),為了優(yōu)化性能,該技術(shù)使用了時(shí)序和音頻等多模態(tài)信息的融合,并運(yùn)用transformer技術(shù)進(jìn)行特征整合,取得了多個(gè)賽道的領(lǐng)先成績(jī)。
除此以外,網(wǎng)易伏羲還加入了基于對(duì)比學(xué)習(xí)的表情編碼預(yù)訓(xùn)練特征,該特征在前兩屆比賽中也得到了應(yīng)用。為了進(jìn)一步加強(qiáng)這一特征,在本次比賽中,網(wǎng)易伏羲制造了更多的對(duì)比樣本并基于網(wǎng)易有靈眾包平臺(tái)完成了高質(zhì)量、高效率的人工標(biāo)注。具體來(lái)說(shuō),網(wǎng)易有靈眾包在"人工樣本標(biāo)注"和"人工檢驗(yàn)"階段將相應(yīng)的眾包任務(wù)通過(guò)低代碼平臺(tái)發(fā)布到眾包平臺(tái)中,然后經(jīng)過(guò)人類標(biāo)注的數(shù)據(jù)再通過(guò)AOP規(guī)范化接口輸入到AI能力系統(tǒng)中,喂給表情編碼算法進(jìn)行表情相似度的訓(xùn)練,值得一提的是, 眾包數(shù)據(jù)的質(zhì)量直接影響著表情編碼表征細(xì)粒度表情的效果。網(wǎng)易有靈眾包平臺(tái)提供了基于用戶畫像的區(qū)間估計(jì)、真值推斷等自動(dòng)質(zhì)檢功能,在降本增效、縮短標(biāo)注周期、保證質(zhì)量等方面都有一系列的前沿算法舉措。得益于有靈機(jī)器人平臺(tái)提供的能力支撐,網(wǎng)易伏羲才能在短時(shí)間內(nèi)提升了表情編碼的表征,為最后的獲勝打下了堅(jiān)實(shí)的基礎(chǔ)。
人類表情AI感知技術(shù)廣泛應(yīng)用于游戲、數(shù)字文旅、心理測(cè)試等領(lǐng)域。以游戲場(chǎng)景為例,人類表情AI感知技術(shù)能夠提高AI對(duì)于玩家情緒的精準(zhǔn)感知,并以更為自然合理的方式進(jìn)行回應(yīng)。網(wǎng)易伏羲的模型提取到的表情特征,能夠幫助游戲開發(fā)者實(shí)現(xiàn)更為細(xì)膩、傳神的NPC表情動(dòng)畫,配合語(yǔ)音生成表情技術(shù),進(jìn)一步提升AI合成動(dòng)畫的質(zhì)量,縮短游戲研發(fā)周期,降低制作成本。
持續(xù)深化虛擬人領(lǐng)域的探索與實(shí)踐
網(wǎng)易伏羲在AI人臉表情遷移、情緒識(shí)別等研究領(lǐng)域取得了顯著成果,并已在網(wǎng)易集團(tuán)內(nèi)外部多個(gè)產(chǎn)品中得到驗(yàn)證,為產(chǎn)品及用戶提供了更加便捷、高效、智能化的服務(wù)。例如,伏羲人臉表情遷移技術(shù)可以將真實(shí)人臉的表情遷移到虛擬人物上,使虛擬人物與用戶進(jìn)行更加自然流暢的交互,提高互動(dòng)體驗(yàn)。
網(wǎng)易伏羲將持續(xù)深化在虛擬人科研領(lǐng)域的探索,積極將最新的 AI 人臉表情分析技術(shù)應(yīng)用于游戲、文旅、文娛等產(chǎn)業(yè),為用戶提供更為自然、流暢的虛擬人互動(dòng)體驗(yàn)。借助智能捏臉、動(dòng)畫遷移、動(dòng)畫合成、語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換等完善的虛擬人能力服務(wù),推動(dòng) AI 技術(shù)在實(shí)際應(yīng)用中發(fā)揮更大價(jià)值,為行業(yè)帶來(lái)前嶄新的AI+應(yīng)用體驗(yàn)。
關(guān)于網(wǎng)易伏羲
網(wǎng)易伏羲成立于2017年,是國(guó)內(nèi)專業(yè)從事游戲與泛娛樂(lè)AI研究和應(yīng)用的頂尖機(jī)構(gòu)。網(wǎng)易伏羲已經(jīng)發(fā)表200多篇AI頂會(huì)論文,擁有400多項(xiàng)發(fā)明專利,以及數(shù)字人、智能捏臉、AI創(chuàng)作、AI反外掛、AI推薦匹配、AI競(jìng)技機(jī)器人等多個(gè)領(lǐng)域的領(lǐng)先技術(shù)。目前,網(wǎng)易伏羲正在向游戲、文旅、文娛等產(chǎn)業(yè)開放AI技術(shù)及產(chǎn)品,已服務(wù)超200家客戶,應(yīng)用日均調(diào)用量超數(shù)億次。
(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對(duì)本廣告內(nèi)容的真實(shí)性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),請(qǐng)自行核實(shí)相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)
(責(zé)任編輯:賀翀 )關(guān)鍵詞: