免費開源的 Stable Diffusion 太火了!
有人拿它來做視頻短片,幾分鐘內穿越時間看遍地球萬物的演變。
還有人拿它來制作守望先鋒里的英雄。

甚至因為使用過于泛濫,牽涉到藝術版權的問題,一群藝術家們還吵了起來,并把一個非官方賬號舉報到封號。

這背后究竟是如何運作的,才能形成如此驚人的反響?
這幾天,有位小哥分享了 Stable Diffusion 工作機制的線程,還被 LeCun 點了贊。

來看看究竟說了啥。
又是擴散模型
首先,從名字Stable Diffusion就可以看出,這個主要采用的擴散模型(Diffusion Model)。
簡單來說,擴散模型就是去噪自編碼器的連續應用,逐步生成圖像的過程。

一般所言的擴散,是反復在圖像中添加小的、隨機的噪聲。而擴散模型則與這個過程相反——將噪聲生成高清圖像。訓練的神經網絡通常為 U-net。

不過因為模型是直接在像素空間運行,導致擴散模型的訓練、計算成本十分昂貴。
基于這樣的背景下,Stable Diffusion 主要分兩步進行。

首先,使用編碼器將圖像 x 壓縮為較低維的潛在空間表示 z(x)。
其中上下文(Context)y,即輸入的文本提示,用來指導 x 的去噪。

它與時間步長 t 一起,以簡單連接和交叉兩種方式,注入到潛在空間表示中去。
隨后在 z(x)基礎上進行擴散與去噪。換言之, 就是模型并不直接在圖像上進行計算,從而減少了訓練時間、效果更好。
值得一提的是,Stable DIffusion 的上下文機制非常靈活,y 不光可以是圖像標簽,就是蒙版圖像、場景分割、空間布局,也能夠相應完成。


霸占 GitHub 熱榜第一
這個平臺一開源,就始終霸占 GitHub 熱榜第一,目前已累計 2.9k 星。

它是由慕尼黑大學機器視覺與學習研究小組和 Runway 的研究人員,基于 CVPR2022 的一篇論文《High-Resolution Image Synthesis with Latent Diffusion Models》,并與其他社區團隊合作開發的一款開源模型。

據官方介紹,它能在幾秒內在消費級 CPU 上運行創作,也無需進行任何預處理和后處理。
核心數據集是 LAION-5B 的一個子集,它是專為基于 CLIP 的新模型而創建。
同時,它也是首個在 4000 個 A100 Ezra-1 AI 超大集群上進行訓練的文本轉圖像模型。
不管怎么說,在文本生成圖像這一趴,又多了一位實力強勁的明星了。(狗頭)
原文地址:http://www.myzaker.com/article/630ef8008e9f094ab6086cdf