咦,怎么好好的藤原千花,突然變成了 " 高溫紅色版 "?

這大紫手,難道是滅霸在世??

如果你以為上面的這些效果只是對物體后期上色了,那還真是被 AI 給騙到了。
這些奇怪的顏色,其實是對視頻對象分割的表示。
但 u1s1,這效果還真是讓人一時間分辨不出。
無論是萌妹子飛舞的發絲:

還是發生形狀改變的毛巾、物體之間來回遮擋:

AI 對目標的分割都稱得上是嚴絲合縫,仿佛是把顏色 " 焊 " 了上去。
不只是高精度分割目標,這種方法還能處理超過10000 幀的視頻。
而且分割效果始終保持在同一水平,視頻后半段依舊絲滑精細。

更意外的是,這種方法對 GPU 要求不高。
研究人員表示實驗過程中,該方法消耗的 GPU 內存從來沒超過1.4GB。
要知道,當下基于注意力機制的同類方法,甚至都不能在普通消費級顯卡上處理超過 1 分鐘的視頻。
這就是伊利諾伊大學厄巴納 - 香檳分校學者最新提出的一種長視頻目標分割方法XMem。
目前已被 ECCV 2022 接收,代碼也已開源。
如此絲滑的效果,還在 Reddit 上吸引不少網友圍觀,熱度達到 800+。

網友都在打趣說:
為什么要把你的手涂成紫色?
誰知道滅霸是不是有計算機視覺方面的愛好呢?

模仿人類記憶法
目前已有的視頻對象分割方法非常多,但是它們要么處理速度比較慢,要么對 GPU 要求高,要么精度不夠高。
而本文提出的方法,可以說是兼顧了以上三方面。
不僅能對長視頻快速進行對象分割,畫面幀數可達到 20FPS,同時在普通 GPU 上就能完成。
其特別之處在于,它受人類記憶模式所啟發。
1968 年,心理學家阿特金森和希夫林提出多重存儲模型(Atkinson-Shiffrin memory model)。
該模型認為,人類記憶可以分為 3 種模式:瞬時記憶、短期記憶和長期記憶。
參考如上模式,研究人員將 AI 框架也劃分出 3 種內存方式。分別是:
及時更新的瞬時內存
高分辨率工作內存
密集長期記憶內存。

其中,瞬時內存會每幀更新一次,來記錄畫面中的圖像信息。
工作內存從瞬時內存中收集畫面信息,更新頻率為每 r 幀一次。
當工作內存飽和時,它會被壓縮轉移到長期內存里。
而長期內存也飽和時,會隨著時間推移忘記過時的特征;一般來說這會在處理過數千幀后才會飽和。
這樣一來,GPU 內存也就不會因為時間推移而不足了。
通常,對視頻目標進行分割會給定第一幀的圖像和目標對象掩碼,然后模型會跟蹤相關目標,為后續幀生成相應的掩碼。
具體來看,XMem 處理單幀畫面的過程如下:

整個 AI 框架由 3 個端到端卷積網絡組成。
一個查詢編碼器(Query encoder)用來追蹤提取查詢特定圖像特征。
一個解碼器(Decoder)負責獲取內存讀取步驟的輸出,以生成對象掩碼。
一個值編碼器(Value encoder)可以將圖像和目標的掩碼相結合,從而來提取新的內存特征值。
最終值編碼器提取到的特征值會添加到工作內存中。
從實驗結果來看,該方法在短視頻和長視頻上,都實現了 SOTA。

在處理長視頻時,隨著幀數的增加,XMem 的性能也沒有下降。

原文地址:http://www.myzaker.com/article/62d65e3a8e9f0912af4ceb7b