機器之心報道
編輯:小舟、陳萍
一位 twitter 博主借助 DALL · E 模型,成功給視頻中的人物虛擬換裝。
DALL · E 是 OpenAI 推出的文本轉圖像模型,生成效果奇幻且逼真。升級為 DALL · E 2 后,生成圖像具有更高的分辨率和更低的延遲。值得注意的是,DALL · E 2 還添加了一個圖像編輯功能,可以修改圖像的部分區域,例如在下圖中 3 的位置加一只柯基犬:

現在,twitter 用戶 Karen X. Cheng 把 DALL · E 2 的這個編輯功能用在了視頻換裝上,我們看到視頻中的女生在往前走的過程中換了多套衣服,并且絲滑切換,無縫銜接。

要了解這個視頻用到的方法,我們首先要了解一下 DALL · E 生成「數字化」服裝的能力。日前,一位名為 Paul Trillo 的 twitter 用戶此前展示了他與藝術家 Shyama Golden 合作完成的上百套設計服裝。

相比于大多數用 AI 進行服裝設計的研究,DALL · E 2 的優點就是讓設計者可以使用文本描述來擴展設計空間,其文本到圖像的強大生成能力可以完成很多新奇的設計思路。
而 Karen X. Cheng 發布的換裝視頻不僅生成了多套服裝,還能在人行走運動的過程中絲滑切換,我們來具體看一下她是怎么做的。
DALL · E + 開源工具
視頻作者 Karen X. Cheng 首先涂抹掉現有服裝的一部分,然后在上面涂上顏色。這一步她也考慮過涂抹掉整個衣服,但生成結果看起來沒有那么好,因此選擇保留衣服原有的一小部分,這樣一來,DALL · E 能夠更好地匹配顏色和照明。
如下動圖所示,衣服上身被涂抹掉,最后生成了三種不同類型的上衣。

然后一個關鍵的難題是 DALL · E 在生成圖像方面表現卓越,但在視頻上就不太行了,要讓 DALL · E 生成的圖像實現幀與幀之間的一致性是很困難的。這里 Karen X. Cheng 列舉了一些早期試驗的失敗案例,下面動圖在換裝時,很明顯能看到不同衣服之間存在交叉部分:

可能有人會問,讓 DALL · E 在每一幀中生成不同的衣服,衣服存在交叉部分問題就可以解決了。但作者想要的效果是同一套衣服堅持幾幀,以實現較好的展示效果,但這是 DALL · E 目前做不到的。
經過一番實驗,作者發現了一個可用的工具 EbSynth,該工具主要是將視頻素材轉換為各種風格的動畫。簡單來說,就是從一段視頻中選出幾張圖,然后根據自己的喜好,換成你想要的風格,整個視頻就能全部變成你期望的畫風了。效果如下所示:

EbSynth 擅長風格轉換,如果把 DALL · E 生成靜態圖和 EbSynth 轉換視頻風格的功能結合起來,就能夠形成視頻中無縫換裝的效果:

最后作者還用到了 DAIN(視頻補幀)工具,該工具可以給一些動作場面添加新的幀,讓整個視頻看起來更加流暢。作者用實驗證明了這一點

這樣 Karen X. Cheng 就完成了整個換裝視頻。有網友表示希望作者開設一門課程,專門介紹這項研究,詳細解讀一下。

還有網友調侃道網絡紅人甚至不用再買新衣服了:

看來以后穿搭博主的視頻也可以用上 DALL · E 這樣的 AI 模型了。
原文地址:http://www.myzaker.com/article/630ef5748e9f094b4f41dab1