金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
北京冬奧會(huì)落幕,“中國(guó)式浪漫”刷爆全網(wǎng)。
而從開(kāi)幕式為起點(diǎn),所延續(xù)的不僅僅是大氣磅礴的視覺(jué)盛宴,科技之美也始終貫穿其中。
云計(jì)算、AI、虛擬現(xiàn)實(shí)、5G……在這屆冬奧會(huì)中可謂是大放異彩。
也難怪外界頻頻發(fā)出“科技感拉滿(mǎn)”這樣的贊嘆之詞。
而在這其中,一個(gè)數(shù)字人的出現(xiàn),竟能讓直播帶貨這件事,有了全新的“打開(kāi)方式”。
不僅吸引了超過(guò)200萬(wàn)人次的觀看,更是在短短時(shí)間內(nèi)圈粉數(shù)十萬(wàn)。
她叫冬冬,是一位在淘寶直播間售賣(mài)冬奧會(huì)官方特許商品的“北京大妞”。
但和其他人不同的是,她在直播間除了賣(mài)貨,還會(huì)大秀“十八般武藝”。
例如奧運(yùn)健兒奪冠了,冬冬就會(huì)模仿其經(jīng)典動(dòng)作來(lái)慶祝:
觀眾們高呼蘇翊鳴,冬冬便現(xiàn)場(chǎng)展示了一段封神的1800轉(zhuǎn)體:
講真,這么多才多藝、如此拼的主播還是頭回看見(jiàn)。
不過(guò)有一說(shuō)一,眼尖的友友們應(yīng)該也已經(jīng)發(fā)現(xiàn)了,冬冬,她其實(shí)并不是人類(lèi)。
而是由阿里巴巴為本屆北京冬奧會(huì)打造的數(shù)字人冬奧宣推官。
或許這時(shí)你會(huì)說(shuō)了,那她不就是個(gè)機(jī)器么?莫得感情,莫得靈魂。
非也非也。
若是看過(guò)冬冬直播,很直觀的一種感受就是自然。
人類(lèi)主播的技能,她也能夠hold得住。來(lái)感受一下她的風(fēng)格:
歡迎尾號(hào)XX的朋友進(jìn)入直播間!
XX朋友,你的需求已經(jīng)托付給程序員小哥哥處理了,不要著急哦。
沒(méi)錯(cuò),實(shí)時(shí)互動(dòng)這一塊,冬冬算是拿捏住了。
單從這點(diǎn)來(lái)看,可以說(shuō)冬冬不再是大眾眼里的傳統(tǒng)虛擬人,而是已經(jīng)進(jìn)化成為數(shù)字人。
畢竟,能否與人類(lèi)互動(dòng),是劃分虛擬人和數(shù)字人的分水嶺。
而且她還不是玩兒“表面功夫”的那種,從直播數(shù)據(jù)來(lái)看,業(yè)務(wù)能力也是夠硬的。
據(jù)悉,在直播間核心表現(xiàn)數(shù)據(jù)的轉(zhuǎn)粉率和停留時(shí)長(zhǎng),而冬冬的直播間均遠(yuǎn)超了淘寶直播的平均水平。
于是乎,這樣的冬冬便迅速引起關(guān)注,網(wǎng)友們紛紛感慨她的“敬業(yè)”:
為了實(shí)現(xiàn)一戶(hù)一墩,真的是太拼了,冬姐也不容易??!
然而,如果細(xì)挖冬冬這位數(shù)字人之后就能發(fā)現(xiàn),直播帶貨,竟只是她能力的一隅而已。
這個(gè)數(shù)字人,冬奧很忙
數(shù)字人冬冬,在整場(chǎng)冬奧會(huì)期間,可以說(shuō)是有“多副面孔”了。
這不,在直播帶貨之余,冬冬就開(kāi)了一個(gè)“冬奧脫口秀”的專(zhuān)欄。
等等,數(shù)字人?講段子?這能行嗎?
可別小瞧了數(shù)字人的能力,冬冬說(shuō)脫口秀的“打開(kāi)方式”,是這樣的:
今天的比賽里,有個(gè)項(xiàng)目冬冬特別想體驗(yàn),在白茫茫的雪地里自由翻轉(zhuǎn)滑行,那感覺(jué)光想想就讓冬冬心跳加快……啊不對(duì),是CPU瘋狂運(yùn)轉(zhuǎn)了呢。
大家知道是哪個(gè)項(xiàng)目了嗎?冬冬給個(gè)提示,對(duì)于新手來(lái)說(shuō)這個(gè)項(xiàng)目只有2個(gè)動(dòng)作:前滾翻和后滾翻。選擇屁股疼還是臉疼呢?
噗!
還別說(shuō),冬冬雖然是個(gè)數(shù)字人,她講得脫口秀還是蠻逗的。
而且在脫口秀期間,除了用詼諧幽默的語(yǔ)言講段子之外,冬冬還會(huì)穿插著講解與冬奧項(xiàng)目有關(guān)的知識(shí)。
真是科普、搞笑兩不誤。
但直播間,只是冬冬工作場(chǎng)合之一,這不,她在冬奧會(huì)期間還參加了CCTV-5《體壇英豪》節(jié)目的錄制。
在其中的一期節(jié)目中,短道速滑運(yùn)動(dòng)員武大靖,就成了她的采訪(fǎng)對(duì)象。
現(xiàn)場(chǎng),冬冬還請(qǐng)求武大靖指導(dǎo)一下她最新學(xué)會(huì)的短道速滑動(dòng)作。
在瞬間變裝后,便在武大靖面前開(kāi)始展示:
冬冬問(wèn)武大靖:“你知道我的動(dòng)作是跟誰(shuí)學(xué)的嗎?”
武大靖自信地回答道:“我唄,肯定是學(xué)我唄?!?/p>
而后,冬冬和武大靖展開(kāi)了輕松愉悅的快問(wèn)快答。
冬冬:這屆冬奧會(huì)最難忘的時(shí)刻是?
武大靖:我們獲得首金的時(shí)候。
冬冬:頭盔的圖案為什么選擇華夏戰(zhàn)神孫大圣?
武大靖:因?yàn)樗脑⒁夂芎茫瑢O大圣的感覺(jué)就是拼命吧。
冬冬:保溫杯里泡的是什么?
武大靖:沒(méi)泡枸杞,泡的是正常的水。
冬冬:金墩墩拿回家,會(huì)放在哪里?
武大靖:放保險(xiǎn)箱里,其他人說(shuō)已經(jīng)聯(lián)盟要弄我。
……
一番交談還挺自然,冬冬模仿真人記者有模有樣。
那么一個(gè)AI數(shù)字人,能夠做到如此的實(shí)時(shí)和擬真,接下來(lái)的一個(gè)問(wèn)題便是:
冬冬,是怎么煉成的?
隨著數(shù)字人冬冬在網(wǎng)上的走紅,其背后的技術(shù)能力也逐漸浮現(xiàn)了出來(lái)。
據(jù)了解,冬冬之所以能夠像人類(lèi)一樣自然,主要得益于阿里巴巴數(shù)字人技術(shù)團(tuán)隊(duì)多年來(lái)在此的技術(shù)積累。
首先,是在外觀的自然度方面。
要讓虛擬人在說(shuō)話(huà)過(guò)程中做到自然,就需得像人類(lèi)一樣,把嘴、表情、肢體動(dòng)作等等做到統(tǒng)一、協(xié)調(diào)。
冬冬背后的技術(shù)所采取的策略,則是AI實(shí)時(shí)驅(qū)動(dòng)。
例如在“嘴型驅(qū)動(dòng)”上,冬冬可以做到播報(bào)的語(yǔ)音和嘴型對(duì)應(yīng);并且在說(shuō)話(huà)過(guò)程中,會(huì)融合適合的面部表情,比如微笑、興奮、生氣、疑問(wèn)等。
除此之外,冬冬的身子,即肢體動(dòng)作,也會(huì)配合內(nèi)容而發(fā)生改變,例如揮手、鼓掌等等。
而且為了在視覺(jué)上達(dá)到更加逼真的效果,阿里采用了Unity HDRP高清管線(xiàn)來(lái)實(shí)時(shí)渲染擬真人級(jí)別的數(shù)字人。
包括實(shí)時(shí)的模擬自然光照、動(dòng)力學(xué)(比如服裝、頭發(fā)的擺動(dòng))等效果。
但若僅僅是停留在外表,那要跟人類(lèi)相比,還是差點(diǎn)意思的。
要想在直播間里和用戶(hù)長(zhǎng)時(shí)間自主互動(dòng),流暢對(duì)話(huà)是一個(gè)必要條件。
多模態(tài)雙工互動(dòng)能力(MMDI,multi-mode duplex interaction),便是其采取的策略。
具體而言,是在深度融合了多模態(tài)理解和雙工對(duì)話(huà)管理技術(shù)的基礎(chǔ)上,構(gòu)建了一套全智能驅(qū)動(dòng)的數(shù)字人雙向互動(dòng)能力。
這讓數(shù)字人具備了像人一樣邊說(shuō)邊聽(tīng)的技能,即使被打斷也可以繼續(xù)順暢溝通。
而且聲音、表情、動(dòng)作在表達(dá)時(shí)能夠自然地整合在一起。
但光是“形象逼真”、“可以互動(dòng)”,還是不夠的。如何能夠讓用戶(hù)覺(jué)得冬冬言之有物,內(nèi)容扎實(shí)豐富,是非常重要的。
這就需要冬冬具備“智能腳本生成”(AI Script Generation,AISG)的能力。
為此,阿里數(shù)字人技術(shù)在深度融合預(yù)訓(xùn)練和知識(shí)圖譜基礎(chǔ)上,構(gòu)建了一套全智能的可控腳本生成方案。
核心就是將以往專(zhuān)家撰寫(xiě)腳本的方式,轉(zhuǎn)變成了機(jī)器自動(dòng)撰寫(xiě)。
更具體一點(diǎn),AI算法模型會(huì)根據(jù)“冬奧知識(shí)”或“喜劇寫(xiě)作公式”,展開(kāi)一個(gè)自主學(xué)習(xí)的過(guò)程。
而后數(shù)字人再結(jié)合NLP和風(fēng)格化生成技術(shù),就可以在面對(duì)不同場(chǎng)景的情況下,快速生成順暢、有邏輯,且自然風(fēng)趣的語(yǔ)言。
這也就是冬冬為什么能夠在長(zhǎng)達(dá)2小時(shí)之久的直播時(shí)間里,不間斷的輸出內(nèi)容、持續(xù)互動(dòng)的原因了。
不僅如此,冬冬還可以在直播過(guò)程中,對(duì)突發(fā)的賽事新進(jìn)程做最新的報(bào)道。
例如一旦有新的獎(jiǎng)牌誕生,她就會(huì)立即對(duì)與之相關(guān)的賽事背景、規(guī)則、選手簡(jiǎn)介等等內(nèi)容做介紹。
這種即時(shí)性,便是得益于新華社與UC的合作,可以讓冬冬從新華社UC大魚(yú)號(hào)上獲取最新賽事動(dòng)態(tài)內(nèi)容。
另外,冬冬在冬奧會(huì)期間身兼數(shù)職,這也需要她拿出不同的“職業(yè)狀態(tài)”。
例如在直播間,冬冬就得用主播的口吻來(lái)說(shuō)話(huà);脫口秀環(huán)節(jié)時(shí)候,冬冬的說(shuō)話(huà)方式就得幽默詼諧。
為了達(dá)到這種效果,冬冬的智能語(yǔ)音技術(shù)團(tuán)隊(duì)深度融合端到端語(yǔ)音合成與傳統(tǒng)語(yǔ)音技術(shù),能在更低的成本、讓數(shù)據(jù)錄制周期變得更短。
同時(shí)融入情感語(yǔ)音合成技術(shù),這就冬冬可以在不同場(chǎng)景之中,表達(dá)不一樣的感情。
……
不過(guò)有一說(shuō)一,從冬冬在冬奧會(huì)的種種表現(xiàn)中,其實(shí)不難看出一種趨勢(shì)的發(fā)展:
人與虛擬人,界限越發(fā)模糊
雖然在近一段時(shí)間里,“虛擬人上崗”的消息層出不窮。
不過(guò)數(shù)字人冬冬的出現(xiàn),似乎讓人類(lèi)與虛擬人的界面進(jìn)一步模糊了起來(lái)。
以往虛擬人即使在外觀和語(yǔ)音的自然度能夠做到高度逼真,但人們對(duì)他們的印象或許依舊會(huì)停留在“莫得靈魂”。
但這一次,卻截然不同。
例如在直播間這種高度需要互動(dòng)的場(chǎng)景中,冬冬就不是“自顧自的”的表演。
當(dāng)有人在直播間問(wèn)冬冬:“你吃飯了嗎?”
她有時(shí)候就會(huì)回答“我是吃代碼的”,然后開(kāi)始念自己的二進(jìn)制代碼;但有時(shí)候冬冬也會(huì)回答說(shuō)自己在吃烤鴨。
這樣的交流方式,就會(huì)讓屏幕前的觀眾感受到與人類(lèi)主播一樣的回應(yīng)與互動(dòng)。
冬冬的出現(xiàn),為數(shù)字人的生命力探索了一個(gè)持續(xù)產(chǎn)出內(nèi)容和互動(dòng)的新場(chǎng)域。
數(shù)字人的生命力,不僅僅是字面上時(shí)間的長(zhǎng)與短,更多的應(yīng)當(dāng)是“成長(zhǎng)”與“復(fù)制”。
換言之,不是打造出了數(shù)字人,這塊工作就結(jié)束了;而是需要在環(huán)境的加持與訓(xùn)練中,不斷讓自己在“像人”這件事兒上做到極致。
與此同時(shí),能夠獨(dú)當(dāng)一面地快速上崗和適應(yīng)新的場(chǎng)景,也是數(shù)字人“生命力”的體現(xiàn)。
那么最后,或許也是大家最為關(guān)心的一個(gè)問(wèn)題:
我們?yōu)槭裁葱枰獢?shù)字人?
從冬冬此次的表現(xiàn)上來(lái)看,她能夠連續(xù)十多天2小時(shí)不間斷地在直播間帶貨,并且能夠跟觀眾做到很好的互動(dòng),從能力上來(lái)講已經(jīng)具備了上崗的能力。
與此同時(shí),她還能以同樣的業(yè)務(wù)水平,同時(shí)間上崗其它場(chǎng)景,光是這一點(diǎn),便是人類(lèi)很難達(dá)到的極限。
也就是說(shuō),現(xiàn)在的數(shù)字人能夠以一己之力同時(shí)勝任住多項(xiàng)任務(wù),從而大大的釋放了人力和物力成本。
而除了冬冬之外,本次冬奧會(huì)還有虛擬人上崗運(yùn)動(dòng)員助理教練、氣象主播等職務(wù)。
放眼冬奧會(huì)之外,例如柳夜熙、新聞主播N小黑/N小白的爆火,更是從側(cè)面反映出普通大眾對(duì)虛擬人的認(rèn)可和接受。
數(shù)字人未來(lái)想象力的大門(mén),已經(jīng)打開(kāi)了。
而更宏觀地來(lái)看,數(shù)字人在本屆冬奧會(huì)所體現(xiàn)出來(lái)的,不僅僅是其本身能力的展示,更是在釋放著一種新信號(hào):
前沿技術(shù),正逐步步入常態(tài)化。
據(jù)悉,此次北京冬奧會(huì)實(shí)現(xiàn)了212項(xiàng)技術(shù)的落地應(yīng)用,其中33項(xiàng)為首次使用。
在未來(lái),這些技術(shù)或許不再是“奧運(yùn)專(zhuān)享”,走進(jìn)你我的日常也是大有可能。
……
最后的最后,要問(wèn)現(xiàn)在虛擬人發(fā)展到了什么地步?
無(wú)疑的一點(diǎn)是,人與虛擬人的界限越發(fā)模糊;或許,隨著智能技術(shù)越來(lái)越發(fā)達(dá),人機(jī)共生時(shí)代已經(jīng)到來(lái)。
本文首發(fā)于微信公眾號(hào):量子位。文章內(nèi)容屬作者個(gè)人觀點(diǎn),不代表和訊網(wǎng)立場(chǎng)。投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。
關(guān)鍵詞: