機器之心報道
編輯:澤南、小舟
臉書的視頻生成新模型實現(xiàn)了 SOTA,但不知道是不是人類給的提示太簡單了,生成內(nèi)容有點驚悚。
你輸入文字,AI 就能生成視頻,很長一段時間里只存在于人們想象中的事現(xiàn)在已經(jīng)實現(xiàn)了。

昨天,Meta(臉書)研究人員發(fā)布了在 AI 藝術(shù)領(lǐng)域的新成果 Make-A-Video,這是一種創(chuàng)造性地新技術(shù),結(jié)果令人印象深刻且多種多樣。雖然畫面目前看起來都有點驚悚,但在 AI 圈里人們已經(jīng)開始嘗試批量制造梗圖了,圖靈獎獲得者 Yann LeCun 也在不停轉(zhuǎn)推它制造的內(nèi)容。

在此之前,我們以前見過文本到視頻模型大多數(shù)利用文本生成圖像(如 DALL-E),它們從人類的提示中輸出靜止圖像。不過,雖然從靜止圖像到移動圖像的概念跳躍對于人類大腦來說很小,但在機器學(xué)習(xí)模型中想要實現(xiàn)卻絕非易事。
Make-A-Video 實際上并沒有在后端對這套過程進行太大的改變——正如研究人員在論文中指出的那樣,「一個只看到描述圖像的文本的模型在生成短視頻方面出奇地有效。」
例如輸入「A teddy bear painting a portrait」,即「一只畫自畫像的泰迪熊」,Make-A-Video 生成的視頻如下動圖所示:

論文《Make-A-Video: Text-to-video Generation without text-video data》:

從格式看是 ICLR 大會的投稿。
論文鏈接:
https://makeavideo.studio/Make-A-Video.pdf
該 AI 模型使用現(xiàn)有且有效的擴散技術(shù)來創(chuàng)建圖像,其本質(zhì)上是從純視覺靜態(tài)「去噪」向目標(biāo)提示的逆向工作。這里要注意的是,該模型還對一堆未標(biāo)記的視頻內(nèi)容進行了無監(jiān)督訓(xùn)練(即在沒有人類仔細指導(dǎo)的情況下用數(shù)據(jù)進行訓(xùn)練)。
Make-A-Video 不需要從頭開始學(xué)習(xí)視覺和多模態(tài)表示,從一開始就知道如何制作逼真的圖像,也不需要成對的文本視頻數(shù)據(jù),同時生成的視頻風(fēng)格多樣,繼承了當(dāng)今圖像生成模型的可擴展性。Meta 研究人員表示,在空間和時間分辨率、對文本的還原忠實度和質(zhì)量的所有方面,Make-A-Video 實現(xiàn)了文本到視頻生成的最高水平。
無論是空間和時間分辨率、還是與文本描述的符合程度,Make-A-Video 都在文本到視頻的生成中達到了 SOTA 水平。
相比于之前從文本生成視頻的系統(tǒng),Make-A-Video 使用了不同的方法,實現(xiàn)了與 18 個月前在原始 DALL-E 或其他上一代系統(tǒng)中一致的圖像保真度。

T2V 生成的圖像示例。Meta 提出的模型可以為各種視覺概念生成具有連貫運動的高質(zhì)量視頻。
值得注意的是,AI 模型生成的圖像往往因為太高清而失去真實感,保留一點瑕疵的圖像和視頻才更貼合實際。

Make-A-Video 的高級架構(gòu)。給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個 64 × 64 分辨率的幀,然后通過 ↑F 將其插值到更高的幀速率,并提高分辨率到 SRt l 為 256 × 256,SRh 為 768 × 768,最后生成高時空分辨率的視頻 y^。
作為一個腦補工具,Make-A-Video 也可以利用靜止圖像和其他視頻轉(zhuǎn)換為其變體或進行擴展,就像圖像生成器也可以用圖像本身作為提示一樣。這樣生成的結(jié)果就稍微沒那么魔性了。
從文本、圖像到視頻,AI 工具的發(fā)展速度再次跨越了一個界限,不知在這項技術(shù)公開之后,人們會用它創(chuàng)造出哪些「藝術(shù)品」。Meta 表示,人們已經(jīng)可以開始注冊,并在近期獲取開放的模型。
原文地址:http://www.myzaker.com/article/63369b868e9f096d295a8e26
轉(zhuǎn)載請注明:你輸文字,它生成視頻:這款新模型讓LeCun也開始轉(zhuǎn)梗圖了 | 快導(dǎo)航網(wǎng)