国精产品一区一区三区有限公司杨,国产激情久久久久影院老熟女,国产裸体裸拍在线观看,国产人妻熟女在线观看,国产美女视频国产视视频

行業(yè)前沿 | 谷歌發(fā)布AI前沿成果MusicLM,生成式AI迎來爆發(fā)

2023-01-29 21:36:19    來源:出新研究 微信號

“繼ChatGPT之后,音樂或?qū)⒊蔀锳I內(nèi)容生成的前沿領(lǐng)域。


【資料圖】

作者:飛飛|

編輯:唐詩 |

當(dāng)?shù)貢r間1月27日,谷歌發(fā)布全新AI模型——MusicLM。通過AI模型MusicLM,文字可以直接生成高保真的音樂。

這是繼文字生成AI模型Wordcraft、視頻生成工具Imagen Video之后,谷歌又一次推出生成式AI模型工具,這一次谷歌將目標(biāo)瞄準(zhǔn)了音樂領(lǐng)域。

透過MusicLM,不難看到,這兩年生成式AI賽道正在迎來爆發(fā)。

01

MusicLM 挑戰(zhàn)更復(fù)雜場景

谷歌最新推出的AI模型MusicLM,可直接將文字、圖像自動生成音樂,并且曲風(fēng)多樣,凡是想聽的音樂,基本都能自動生成。

MusicLM并非是第一個可自動生成音樂的AI模型,此前,可視化AI工具Riffusion也能自動創(chuàng)作音樂,還有Dance Diffusion,此外,當(dāng)前最熱門的聊天機(jī)器人ChatGPT的研發(fā)者OpenAI也推出過Jukebox。

但值得注意的是,這些可自動生成音樂的AI系統(tǒng),受限于技術(shù)和數(shù)據(jù)等因素,創(chuàng)作的音樂都比較簡單,相對而言并不復(fù)雜。

和前輩們不同的是,MusicLM可創(chuàng)作特別復(fù)雜和保真度特別高的音樂,也可通過圖像生成音樂。這算是實現(xiàn)了全新突破,通過AI技術(shù)不僅可以識別樂器,融合音樂流派,還可以通過更抽象的概念生成音樂。

比如,想要街機(jī)游戲配樂,只要輸入“街機(jī)游戲的主配樂,它節(jié)奏快且樂觀”等文字,MusicLM便可自動生成音樂。MusicLM也可通過圖像生成音樂,例如世界名作《吶喊》《格爾尼卡》《星空》等皆可作為素材來源。

不過,值得一提的是,目前谷歌只是發(fā)布了MusicLM的研究成果,因為版權(quán)等問題,谷歌還未向公眾開放MusicLM。

02

AI生成音樂難在哪?

去年10月,谷歌在生成式AI模型上已經(jīng)推出過AudioLM,只需輸入短時音頻,就能生成相似風(fēng)格的音頻。彼時AudioLM只是純音頻模型,這個技術(shù)類似于語言模型,根據(jù)提示的語音內(nèi)容,自主判斷并生成相似內(nèi)容。

從這個角度看,AudioLM可視為是MusicLM的前身。AudioLM在不進(jìn)行轉(zhuǎn)錄或標(biāo)記的情況下,可以模仿音頻的音色、響度和清晰度等。但是,AudioLM生成的音頻和原版并無太大區(qū)別,并未得到公開應(yīng)用。

通過AI模型創(chuàng)作音樂,這件事并不容易,因為生成的音樂包括音頻信號、環(huán)境聲音、人的聲音等多個維度,是由很多信號相互作用形成的,而人體每次向外發(fā)出的聲音,無論聲音響度大小、音色好差,都由句法、音律等組成,這是非常復(fù)雜的綜合性系統(tǒng)。

也恰恰是這些原因,在早期的探索過程中,自動生成的音頻合成痕跡明顯,聲音聽起來并不自然,發(fā)音也都不標(biāo)準(zhǔn)。因此AI模型要想實現(xiàn)真正意義上的自動生成音頻,依靠海量的數(shù)據(jù)訓(xùn)練和模擬,是必不可少的基礎(chǔ)性步驟。

針對這些挑戰(zhàn),作為AudioLM的“升級版”,MusicLM的訓(xùn)練數(shù)據(jù)更加龐大。據(jù)了解,谷歌在28萬小時的音樂數(shù)據(jù)集中,才訓(xùn)練出MusicLM,為理解深度和復(fù)雜的音樂場景提供了基礎(chǔ)。

此外值得一提的是,針對任務(wù)缺乏評估數(shù)據(jù)等問題,谷歌專門引入了MusicCaps,用于文本到音樂的生成任務(wù)評估。

03

生成式AI迎來爆發(fā)

此次谷歌推出MusicLM,可視為拓展AI應(yīng)用的注腳,背后則是生成式AI賽道的爆發(fā)。事實上,生成式AI一直是近兩年最炙手可熱的話題。

2021年,OpenAI相繼發(fā)布了劃時代的DALL-E、DALL-E 2模型,實現(xiàn)了文本生成圖像的跨越;去年,Meta發(fā)布了AI短視頻生成模型Make-A-Video,同樣可由文本內(nèi)容生成視頻;谷歌也發(fā)布了短視頻AI生成模型Imagen Video與Phenaki。

不止是國外,國內(nèi)也有很多生成式AI應(yīng)用。比如,字節(jié)跳動旗下剪映APP,可根據(jù)文字內(nèi)容自動生成匹配的視頻畫面。去年初,網(wǎng)易推出了“網(wǎng)易天音”,也是一站式AI音樂創(chuàng)作平臺,可將用戶編輯的內(nèi)容通過AI自動生成為歌曲。

可以看到,生成式AI應(yīng)用的場景越來越廣泛,寫作、繪畫、剪視頻等等,都可以通過AI技術(shù)實現(xiàn)。基于生成式AI廣泛的應(yīng)用前景,谷歌、微軟、Meta等巨頭們紛紛推進(jìn)研發(fā),將生成式AI技術(shù)融合到產(chǎn)品中,這加速了生成式AI賽道的爆發(fā)。

事實上,生成式AI高速發(fā)展并非是這兩年的事,只是因技術(shù)門檻過高,其前沿動態(tài)一直在科技圈小范圍流傳。直到AI繪畫、AI寫作等頻繁出圈,生成式AI得到了更廣泛的關(guān)注。

生成式AI賽道爆發(fā)有必然原因,大數(shù)據(jù)和算法應(yīng)用越來越成熟,模型工具越來越完善,這都加速了生成式AI應(yīng)用的迭代。當(dāng)前,生成式AI已經(jīng)迎來爆發(fā),未來還有巨大的發(fā)展?jié)摿?。根?jù)Gartner統(tǒng)計數(shù)據(jù),預(yù)計到2025 年,生成式AI將占所有生成數(shù)據(jù)的10%,而目前的比例還不到1%。

當(dāng)然,任何技術(shù)都是一把“雙刃劍”,生成式AI也面臨著版權(quán)問題等挑戰(zhàn),此外還面臨由AI生成“錯誤”引發(fā)的各種損失,就目前來看,還離不開人為干預(yù)。但長期而言,生成式AI巨大的發(fā)展?jié)摿σ呀?jīng)成為共識。

04

延伸閱讀

1.彩云小夢

是一款小說續(xù)寫軟件,由北京彩徹區(qū)明科技有限公司開發(fā)運(yùn)營,具備AI續(xù)寫功能。

人物對話:可在軟件內(nèi)與自己創(chuàng)建的人物開啟對話。

語音通話模擬:在人物詳情頁的語音通話按鈕,或是在聊天頁面點擊打電話按鈕,可開啟語音通話。

AI續(xù)寫:在輸入一段文字后,選擇軟件內(nèi)的AI小夢來幫寫,便能自動續(xù)寫內(nèi)容。

續(xù)寫內(nèi)容分享:支持一鍵生成圖片,提供保存或分享他人。

2.Stability AI

業(yè)內(nèi)備受矚目的AI獨(dú)角獸企業(yè),曾推出著名的Stable Diffusion開源模型,其在學(xué)術(shù)和工業(yè)界的AI研究和應(yīng)用受到各界的廣泛關(guān)注和肯定。

Stable Diffusion:類似DALL-E2系統(tǒng),可通過文本描述生成對應(yīng)的圖像,允許任何人在沒有監(jiān)督情況下使用和構(gòu)建其模型。

DreamStudio:由Stable Diffusion提供支持的新AI系統(tǒng),可根據(jù)自然語言的描述創(chuàng)建逼真的圖像、藝術(shù)和動畫。

本文提供的信息僅用于一般指導(dǎo)和信息目的,本文的內(nèi)容在任何情況下均不應(yīng)被視為投資、業(yè)務(wù)、法律或稅務(wù)建議。

關(guān)鍵詞: MusicLM

上一篇:
下一篇:

熱點話題

熱點推薦

頭條

?