
畫家執(zhí)筆在畫布上戳戳點(diǎn)點(diǎn),形成手繪作品獨(dú)有的筆觸。
你以為這是哪部紀(jì)錄片的畫面?
No,No,No!
視頻里的每一幀,都是 AI 生成的。
還是你告訴它,來段 " 畫筆在畫布上的特寫 ",它就能直接整出畫面的那種。
不僅能無中生畫筆,按著馬頭喝水也不是不可以。
同樣是一句 " 馬兒喝水 ",這只 AI 就拋出了這樣的畫面:

好家伙,這是以后拍視頻真能全靠一張嘴的節(jié)奏啊……
不錯(cuò),那廂一句話讓 AI 畫畫的 Text to Image 正搞得風(fēng)生水起,這廂 Meta AI 的研究人員又雙叒給生成 AI 來了個(gè)超進(jìn)化。
這回是真能 " 用嘴做視頻 " 了:
AI 名為Make-A-Video,直接從 DALL · E、Stable Diffusion 搞火的靜態(tài)生成飛升動(dòng)態(tài)。
給它幾個(gè)單詞或幾行文字,就能生成這個(gè)世界上其實(shí)并不存在的視頻畫面,掌握的風(fēng)格還很多元。
不僅紀(jì)錄片風(fēng)格能 hold 住,整點(diǎn)科幻效果也沒啥問題。

兩種風(fēng)格混合一下,機(jī)器人在時(shí)代廣場蹦迪的畫面好像也沒啥違和感。

文藝小清新的動(dòng)畫風(fēng)格,看樣子 Make-A-Video 也把握住了。

這么一波操作下來,那真是把不少網(wǎng)友都看懵了,連評(píng)論都簡化到了三個(gè)字母:

而大佬 LeCun 則意味深長地表示:該來的總是會(huì)來的。

畢竟一句話生成視頻這事兒,之前就有不少業(yè)內(nèi)人士覺得 " 快了快了 "。只不過 Meta 這一手,確實(shí)有點(diǎn)神速:
比我想象中快了 9 個(gè)月。

甚至還有人表示:我已經(jīng)有點(diǎn)適應(yīng)不了 AI 的進(jìn)化速度了……

文本圖像生成模型超進(jìn)化版
你可能會(huì)覺得 Make-A-Video 是個(gè)視頻版的 DALL · E。
實(shí)際上,差不多就是這么回事兒。
前面提到,Make-A-Video 是文本圖像生成(T2I)模型的超進(jìn)化,那是因?yàn)檫@個(gè) AI 工作的第一步,其實(shí)還是依靠文本生成圖像。
從數(shù)據(jù)的角度來說,就是 DALL · E 等靜態(tài)圖像生成模型的訓(xùn)練數(shù)據(jù),是成對(duì)的文本 - 圖像數(shù)據(jù)。
而 Make-A-Video 雖然最終生成的是視頻,但并沒有專門用成對(duì)的文本 - 視頻數(shù)據(jù)訓(xùn)練,而是依然靠文本 - 圖像對(duì)數(shù)據(jù),來讓 AI 學(xué)會(huì)根據(jù)文字復(fù)現(xiàn)畫面。
視頻數(shù)據(jù)當(dāng)然也有涉及,但主要是使用單獨(dú)的視頻片段來教給 AI 真實(shí)世界的運(yùn)動(dòng)方式。

具體到模型架構(gòu)上,Make-A-Video 主要由三部分組成:
文本圖像生成模型 P
時(shí)空卷積層和注意力層
用于提高幀率的幀插值網(wǎng)絡(luò)和兩個(gè)用來提升畫質(zhì)的超分網(wǎng)絡(luò)
整個(gè)模型的工作過程是醬嬸的:
首先,根據(jù)輸入文本生成圖像嵌入。
然后,解碼器 Dt 生成 16 幀 64 × 64 的 RGB 圖像。
插值網(wǎng)絡(luò)↑ F 會(huì)對(duì)初步結(jié)果進(jìn)行插值,以達(dá)到理想幀率。
接著,第一重超分網(wǎng)絡(luò)會(huì)將畫面的分辨率提高到 256 × 256。第二重超分網(wǎng)絡(luò)則繼續(xù)優(yōu)化,將畫質(zhì)進(jìn)一步提升至 768 × 768。
基于這樣的原理,Make-A-Video 不僅能根據(jù)文字生成視頻,還具備了以下幾種能力。
將靜態(tài)圖像轉(zhuǎn)成視頻:

根據(jù)前后兩張圖片生成一段視頻:

根據(jù)原視頻生成新視頻:

刷新文本視頻生成模型 SOTA
其實(shí),Meta 的 Make-A-Video 并不是文本生成視頻(T2V)的首次嘗試。
比如,清華大學(xué)和智源在今年早些時(shí)候就推出了他們自研的 " 一句話生成視頻 "AI:CogVideo,而且這是目前唯一一個(gè)開源的 T2V 模型。
更早之前,GODIVA 和微軟的 " 女媧 " 也都實(shí)現(xiàn)過根據(jù)文字描述生成視頻。
不過這一次,Make-A-Video 在生成質(zhì)量上有明顯的提升。
在 MSR-VTT 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,在 FID(13.17)和 CLIPSIM(0.3049)兩項(xiàng)指標(biāo)上,Make-A-Video 都大幅刷新了 SOTA。

此外,Meta AI 的團(tuán)隊(duì)還使用了 Imagen 的 DrawBench,進(jìn)行人為主觀評(píng)估。
他們邀請(qǐng)測試者親身體驗(yàn) Make-A-Video,主觀評(píng)估視頻與文本之間的邏輯對(duì)應(yīng)關(guān)系。
結(jié)果顯示,Make-A-Video 在質(zhì)量和忠實(shí)度上都優(yōu)于其他兩種方法。

One More Thing
有意思的是,Meta 發(fā)布新 AI 的同時(shí),似乎也拉開了 T2V 模型競速的序幕。
Stable Diffusion的母公司StabilityAI就坐不住了,創(chuàng)始人兼 CEO Emad 放話道:
我們將發(fā)布一個(gè)比 Make-A-Video 更好的模型,大家都能用的那種!

而就在前幾天,ICLR 網(wǎng)站上也出現(xiàn)了一篇相關(guān)論文Phenaki。
生成效果是這樣的:

對(duì)了,雖然 Make-A-Video 尚未公開,但 Meta AI 官方也表示,準(zhǔn)備推出一個(gè) Demo 讓大家可以實(shí)際上手體驗(yàn),感興趣的小伙伴可以蹲一波了 ~
原文地址:http://www.myzaker.com/article/633699e3b15ec0368527d5d0
轉(zhuǎn)載請(qǐng)注明:真·拿嘴做視頻!Meta「AI導(dǎo)演」一句話搞定視頻素材,網(wǎng)友:我已跟不上AI發(fā)展速度 | 快導(dǎo)航網(wǎng)