自導自演皮克斯動畫不再是夢，這個工具實現了高分辨率、高度可控的真人視頻轉動畫

前沿科技 3年前 (2022) 虛像

機器之心報道

編輯：張倩

這個框架能將人物視頻轉成動畫，還是高清、高度可控的。

在社交網絡、短視頻平臺上使用卡通頭像錄制視頻是很多人喜歡的玩法，但我們也會發(fā)現一些問題，比如頭像調整范圍比較窄，和本人沒有那么像等。

近日，來自新加坡南洋理工大學的一項相關研究在 reddit、推特上都收獲了上千的點贊量。他們開發(fā)了一個能夠進行可控高分辨率人像視頻風格轉換的框架—— VToonify，在風格控制的靈活性、生成視頻的質量、時間上的連貫性等方面都有著出色的表現。

你可以根據自己的需要靈活調整生成的風格類型以及卡通化的程度等指標：

從 demo 中可以看出，VToonify 生成的這些人像不僅具有高度可調的卡通風格，而且包含了人像的很多細節(jié)，有一種千人千面的感覺。因此，不少網友表示，有了這個工具，動畫電影做起來豈不是很容易？

還有人暢想將其應用到 VR 領域。

當被問及能否當實時濾鏡用時，作者表示：目前模型還很大，做到實時還需要一些工程努力。

以下是完整的 demo 視頻：

論文概覽

論文鏈接：https://arxiv.org/pdf/2209.11224.pdf

項目鏈接 : https://github.com/williamyang1991/VToonify

demo 鏈接 : https://huggingface.co/spaces/PKUWilliamYang/VToonify

colab 鏈接：https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb

生成高質量的藝術人像視頻是計算機圖形學和計算機視覺中的一個重要任務。雖然基于強大的 StyleGAN，研究者們已經提出了一系列成功的人像卡通模型，但這些面向圖像的方法在應用于視頻時存在明顯的局限性，如固定幀大小、人臉對齊要求、缺少非面部細節(jié)和時間不一致等。

也就是說，一個高效的視頻卡通化方法需要克服以下挑戰(zhàn)：

能夠處理未對齊的人臉和不同的視頻大小，以保持運動自然。增大視頻尺寸或使用廣角可以捕捉更多的信息，防止人臉移動出幀；

為了匹配目前廣泛使用的高清設備，生成的視頻要有足夠高的分辨率；

要想構建一個實用的用戶交互系統，新方法應該提供靈活的風格控制，讓用戶調整并選擇自己喜歡的風格。

為了滿足以上需求，研究者們提出了專門用于視頻卡通化的混合框架—— VToonify。

具體來說，他們首先分析了 StyleGAN 的平移同變性，這是克服「固定幀大小」局限性的關鍵。如下圖 2（c）所示，VToonify 結合了基于 StyleGAN 的框架和圖像轉換框架的優(yōu)點，實現了可控的高分辨率人像視頻風格轉換。

他們采用 [ Pinkney and Adler 2020 ] 的 StyleGAN 架構進行高分辨率的視頻風格轉換，但通過刪除固定大小的輸入特征和低分辨率層來調整 StyleGAN，構建了一個全新的全卷積編碼器 - 生成器架構，類似于圖像轉換框架中的架構，支持不同的視頻大小。

除了原始的高級風格代碼外，他們還訓練編碼器提取輸入幀的多尺度內容特征作為生成器的附加內容條件，以便在風格轉換過程中更好地保存幀的關鍵視覺信息。

他們遵循 [ Chen et al. 2019; Viazovetskyi et al. 2020 ] 的做法，在合成的配對數據上蒸餾 StyleGAN。

此外，他們還進一步提出了基于單一合成數據模擬相機運動的閃爍抑制損失來消除閃爍。

因此，VToonify 無需真實數據、復雜的視頻合成和顯式的光流計算，就可以學習快速連貫的視頻轉換。

不同于 [ Chen et al. 2019; Viazovetskyi et al. 2020 ] 中標準的圖像轉換框架，VToonify 將 StyleGAN 模型合并到生成器中，以蒸餾數據和模型。因此，VToonify 繼承了 StyleGAN 的風格調整靈活性。通過重用 StyleGAN 作為生成器，研究者只需要訓練編碼器，大大減少了訓練時間和訓練難度。

根據上述做法，研究者提出了基于兩個代表性 StyleGAN 主干—— Toonify [ Pinkney and Adler 2020 ] 和 DualStyleGAN [ Yang et al. 2022 ] ——的兩種 VToonify 變體，分別用于 collection-based 和 exemplar-based 的人像視頻卡通化。

前者根據數據集的整體風格對人臉進行風格化，而后者則使用數據集中的一張圖像來指定更精細的風格，如圖 1 的右上角所示。

研究者通過采用 DualStyleGAN 的風格控制模塊 [ Yang et al. 2022 ] 來調整編碼器的特征，并精心設計數據生成和訓練目標。VToonify 繼承了 DualStyleGAN 靈活的風格控制和風格程度的調整，并進一步將這些功能擴展到視頻（如圖 1 右上角所示）

collection-based 人像視頻風格轉換

在 collection-based 人像視頻風格轉換中，研究者利用具有代表性的 Toonify 作為主干，它使用原始的 StyleGAN 架構，并僅以風格代碼為條件。

如圖 4 所示，collection-based VToonify 框架包含構建在 Toonify 之上的編碼器和生成器。接受視頻幀并生成內容特征，然后將這些特征輸入以生成最終的風格化人像。與現有的使用整個 StyleGAN 架構的基于 StyleGAN 的框架不同，他們只使用最高級的 11 層 StyleGAN 來構建。正如 [ Karras et al. 2019 ] 中所分析的，StyleGAN 的低分辨率層和高分辨率層分別主要捕獲與結構相關的風格和顏色 / 紋理風格。因此，的主要任務是對內容特征進行上采樣，并為它們渲染風格化的顏色和紋理。

exemplar-based 人像視頻風格轉換

在 exemplar-based 人像視頻風格轉換中，研究者使用 DualStyleGAN 作為主干，它向 StyleGAN 添加了一個外部風格路徑，并以內部風格代碼、外部風格代碼和風格程度為條件。內部風格代碼描述了人臉的特征，外部風格代碼描述了藝術人像外部的結構和色彩風格。結構風格度 _ 和顏色風格度 _ 決定了所應用風格的強度。

exemplar-based 框架和上面提到的 collection-based 框架有很多共同之處，它通過兩方面修改來實現靈活的風格控制，一是借助 Modified ModRe 實現結構風格控制，二是添加了 Style-Degree-Aware 融合模塊。完整架構如圖 9 所示。

實驗結果

實驗結果表明，VToonify 生成的風格化幀不僅與主干幀一樣質量高，而且更好地保留了輸入幀的細節(jié)。

更多細節(jié)請參見原論文。

原文地址：http://www.myzaker.com/article/63425d8e8e9f090f5733ff02

代表性分辨率童話藝術計算機視覺

版權聲明：虛像發(fā)表于 2022年10月9日 pm2:15。
轉載請注明：自導自演皮克斯動畫不再是夢，這個工具實現了高分辨率、高度可控的真人視頻轉動畫 | 快導航網

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

自導自演皮克斯動畫不再是夢，這個工具實現了高分辨率、高度可控的真人視頻轉動畫

神奇的秘密道具，讓你走路玩手機再也不怕撞！

萬馬之父Eclipse：令所有賽馬都黯然失色的“戰(zhàn)神”

相關文章

熱門文章

最新資訊

熱門網址

熱門標簽

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

自導自演皮克斯動畫不再是夢，這個工具實現了高分辨率、高度可控的真人視頻轉動畫

神奇的秘密道具，讓你走路玩手機再也不怕撞！

萬馬之父Eclipse：令所有賽馬都黯然失色的“戰(zhàn)神”

相關文章

熱門文章

最新資訊

熱門網址

熱門標簽

運營相關

軟件下載

跨境電商

購物網站

設計相關

行業(yè)企業(yè)

自媒體相關

網絡科技

編程幫手

綜合其他

站長助手

知識充能

電商運營

生活服務

榜單排名

服務生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現

影視工具

影視基地

工具大全

學術資源

學習教育

娛樂生活

發(fā)現資源

醫(yī)療健康

興趣愛好

元宇宙

體育健身

休閑娛樂

交通旅游

NFT概念

ACG