先來看一段高清版的《清明上河圖》:

你能看出這幅畫與原作的差異嗎?
其實,這是AI續畫的一段《清明上河圖》,一眼望去,這畫面還真是有些真 假 難 辨了。
筆墨色彩幾乎完全復刻了原作。
無論是房屋樹木,還是市集中熙熙攘攘的人群,AI 的筆法都抓到了原作的風格神韻,拼在一起乍一看還真認不出來。

△左是原作,右是 AI 復刻
畫質還是38912 × 2048像素的那種,能直接把畫面拉大 3、4 倍看細節。
喏,店鋪里的小人在干啥看得一清二楚,體態和衣著也各不相同。

這就是由全華人團隊打造的 AI ——女媧 · 無限版(NUWA INFINITY)。
只要給它喂一些圖片、或是輸入一段文字,它就能進行更細致的拓展,最終生成一幅完整的高清圖像、甚至是一段流暢視頻。
這是它學習了《清明上河圖》之后,畫出的完整版 " 大作 "。

論文前腳剛上傳到 arXiv,推特上就已經引發各路網友狂呼 amazing!

還有油管博主光速更新視頻講解。標題直接用上了 "超越 DALL · E 2"、"4K" 的字眼。

除了續畫《清明上河圖》之外,微軟的經典藍天白云壁紙,經它之手都能變成無限加長版。

還能根據文本提示,在圖像上加不同元素:要光有光,要雪有雪。(這還真是女媧技能了)

相較于當下熱門的 DALL · E、Imagen 和 Parti,女媧無限版支持生成任意大小的高分辨率圖像, 同時還支持生成長視頻。
(沒錯,繼 AI 續寫小說熱潮之后,現在 AI 終于也能續畫了)
研究人員表示,他們希望這一模型能夠幫助創作者們提高生產力。
所以,女媧無限版還有什么大招?
我們一起來看 ~
風格完美模仿,圖像視頻生成全搞定
總體來看,這個 AI 女媧無限版是個全能選手,可以挑戰5 種高清視覺任務。
分別是:
讓圖像動起來(Image Animation)
根據文本生成視頻(Text-to-Video)
根據文本生成圖像(Text-to-Image)
圖像補全(Image Outpainting)
圖像生成(Image Generation)
先來看讓圖像動起來的效果。
一張靜態的沙灘照片經 AI 之手后,圖中的海浪都能自然地拍打海岸,層層疊疊仿佛是真實的景色一般。


一句話生成視頻就更讓人驚喜了。
這不,給它一個小豬佩奇原版的視頻,然后再輸入一句話,這位 " 女媧 " 就能自己做動畫片了。

這效果完全看不出是 AI 做的啊,分辨率也達到了 1280 × 1024。甚至都能拿去蒙騙小孩子?
(嗯,別讓富堅義博看到這個 AI ……)

能根據文本搞定視頻,當然圖像也不在話下。
給 AI 一張風景照,再輸入不同的文本表示,它就能根據需要在照片中加各種元素了。
比如滾滾海浪、群山環繞、星空、云彩等,都可搞定。

接下來則是文本圖像生成了。這個任務可以說是 DALL · E2、Imagen 和 Parti 的 " 拿手好戲 ",也是這段時間幾大模型 battle 的核心。
不過從生成效果來看,NUWA-Infinity 也同樣 " 可以一戰 "。

△" 微軟已加入戰場 "
輸入 " 田野上有房子、天空中有云彩 ",女媧無限版立刻呈現出了一張景色優美的照片。
分辨率高達4069 × 1024,仿佛是拿單反真實拍下的一樣。

最后,就是 NUWA-Infinity 的核心能力—— " 續畫 " 了。
在補充圖像上,這只 AI 已經挑戰了不少世界名畫,并且都可以做到幾乎以假亂真。
梵高筆下的星空,它能補充浩瀚深邃的畫面。
筆觸連接的地方十分絲滑,整體畫面的協調感也很高。

莫奈的名作也能信手拈來。
值得一提的是,原畫中人物的影子沿著右下方拉去,AI 在補充畫面的時候,還非常聰明地在左邊補充了太陽。
陽光灑在海面上,波光粼粼的細節都畫出來了。

除了世界名畫以外,風景照片同樣也能補全啦。
這效果,仿佛它就在拍照現場,直接把原本的畫面搬了上來。

那么,NUWA-Infinity 究竟是怎么擁有 " 續畫 " 的能力呢?
基于自回歸的 " 無限視覺合成 "
與 DALL · E 和 Imagen 最大的不同在于,NUWA-Infinity 在圖像生成上沒有采用擴散模型。
這是因為,擴散模型雖然在圖像生成上效果不錯,但它沒有辦法改變輸圖像的大小,包括訓練和推理圖像的寬高是被預先定義好的。

因此,為了讓模型學會 " 續畫 ",論文提出了一種基于自回歸的自回歸生成模型(autoregressive over autoregressive generation),訓練時將圖像被分成很多個小塊,然后再對每個小塊(patch)分別進行訓練。
不過,如果只對這些 patch 單獨訓練,容易導致合成圖像時出現 " 不和諧 " 的結果,例如把頭發 p 到臉上等等。
因此,與一些基于 GAN 的模型直接對每個 patch 進行獨立訓練不同,NUWA-Infinity 在進行訓練時,有意識地去加強各個 patch 之間的 " 依賴性 "。
除了對每個 patch 進行獨立訓練以外,NUWA-Infinity 在推理圖像時,還會要求各 patch 與周圍的 patch 產生 " 聯系 ",讓生成的圖像更具有連續效果。

當然,推理出圖像或視頻的步驟,在 NUWA-Infinity 做不同任務時也不一樣。
由于文本是一維數據,圖像是二維(寬 + 長)數據,視頻則是三維數據(寬 + 長 + 時間),因此 NUWA-Infinity 在做不同任務時,推理的順序也不同。
例如,在 " 補全圖像 " 的過程中,圖像推理是一圈一圈向外生成的;而在文本生成圖像、或是視頻文本生成時,這些推理的順序又有不一樣的變化:

不過,NUWA-Infinity 也還有一些局限性,例如與 DALL · E2 和 Imagen 不同的是,它是在特定數據集(清明上河圖、小豬佩奇等)上訓練的。
因此,一方面 NUWA-Infinity 在更一般的數據集上是否也能表現出這么好的效果,還有待佐證;
另一方面,在文本生成圖像上,目前作者并沒有將它這一能力與 DALL · E2 和 Imagen 等模型進行對比,因此在這一任務上并不能說它是最優秀的,只能說生成圖像大小上減少了一些限制。

作者:代碼在盡力肝了
論文的一作吳晨飛(Chenfei Wu),博士畢業于北京郵電大學,現工作于微軟亞研院。
在北郵讀博期間,他在 NeurIPS 和 ACM Multimedia 等頂會上發表過不少與視覺問答(VQA)相關的論文。

△圖源北郵計算機學院
共同一作Jian Liang, 來自北京大學。
值得一提的是,去年被 ECCV 2022 收錄的 NUWA 論文,也是這兩位作者合作產出的。

此外,來自微軟 Azure AI 團隊的 Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu,以及北大副教授方躍堅也參與了此次研究,通訊作者則是微軟亞研院的高級研究員 & 研究經理段楠。
對于這項研究本身,有網友調侃:才注冊完 DALL · E2 測試版就看到這個,快跟不上節奏了……

還有網友大膽想象 " 有生之年 " 系列:以這個速度,世紀結束前我們是不是能玩上 " 可實時生成 " 的定制 VR 游戲了?

但對于研究的效果,也有讀者懷疑是在 " 吹牛 ",因為這次的 " 無限版 "NUWA 還并沒有開源。對此作者之一 Zhe Gan 回應表示:
我們也很想放出代碼,正在努力 ing。

此外也有讀者對于 AI" 續畫 " 的能力提出了疑問:
對于 AI 來說,到底是 " 續 " 一幅畫難,還是從 0 生成一個圖像更難?

你覺得呢?
原文地址:http://www.myzaker.com/article/62da428e8e9f096c640f7bdc