時間、空間可控的視頻生成走進(jìn)現(xiàn)實,阿里大模型新作VideoComposer火了
時間:2023-06-23 06:39:55
機(jī)器之心編輯部
在 AI 繪畫領(lǐng)域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領(lǐng)了可控圖像生成的理論發(fā)展。但是,業(yè)界在可控視頻生成上的探索依舊處于相對空白的狀態(tài)。
【資料圖】
相比于圖像生成,可控的視頻更加復(fù)雜,因為除了視頻內(nèi)容的空間的可控性之外,還需要滿足時間維度的可控性。基于此,阿里巴巴和螞蟻集團(tuán)的研究團(tuán)隊率先做出嘗試并提出了 VideoComposer,即通過組合式生成范式同時實現(xiàn)視頻在時間和空間兩個維度上的可控性。
論文地址:/abs/
項目主頁:
前段時間,阿里巴巴在魔搭社區(qū)和 Hugging Face 低調(diào)開源了文生視頻大模型,意外地受到國內(nèi)外開發(fā)者的廣泛關(guān)注,該模型生成的視頻甚至得到馬斯克本尊的回應(yīng),模型在魔搭社區(qū)上連續(xù)多天獲得單日上萬次國際訪問量。
Text-to-Video 在推特
VideoComposer 作為該研究團(tuán)隊的最新成果,又一次受到了國際社區(qū)的廣泛關(guān)注。
VideoComposer 在推特
事實上,可控性已經(jīng)成為視覺內(nèi)容創(chuàng)作的更高基準(zhǔn),其在定制化的圖像生成方面取得了顯著進(jìn)步,但在視頻生成領(lǐng)域仍然具有三大挑戰(zhàn):
復(fù)雜的數(shù)據(jù)結(jié)構(gòu),生成的視頻需同時滿足時間維度上的動態(tài)變化的多樣性和時空維度的內(nèi)容一致性;
復(fù)雜的引導(dǎo)條件,已存在的可控的視頻生成需要復(fù)雜的條件是無法人為手動構(gòu)建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實現(xiàn)視頻間的結(jié)構(gòu)遷移,但不能很好的解決可控性問題;
缺乏運動可控性,運動模式是視頻即復(fù)雜又抽象的屬性,運動可控性是解決視頻生成可控性的必要條件。
在此之前,阿里巴巴提出的 Composer 已經(jīng)證明了組合性對圖像生成可控性的提升具有極大的幫助,而 VideoComposer 這項研究同樣是基于組合式生成范式,在解決以上三大挑戰(zhàn)的同時提高視頻生成的靈活性。具體是將視頻分解成三種引導(dǎo)條件,即文本條件、空間條件、和視頻特有的時序條件,然后基于此訓(xùn)練 Video LDM (Video Latent Diffusion Model)。特別地,其將高效的 Motion Vector 作為重要的顯式的時序條件以學(xué)習(xí)視頻的運動模式,并設(shè)計了一個簡單有效的時空條件編碼器 STC-encoder,保證條件驅(qū)動視頻的時空連續(xù)性。在推理階段,則可以隨機(jī)組合不同的條件來控制視頻內(nèi)容。
實驗結(jié)果表明,VideoComposer 能夠靈活控制視頻的時間和空間的模式,比如通過單張圖、手繪圖等生成特定的視頻,甚至可以通過簡單的手繪方向輕松控制目標(biāo)的運動風(fēng)格。該研究在 9 個不同的經(jīng)典任務(wù)上直接測試 VideoComposer 的性能,均獲得滿意的結(jié)果,證明了 VideoComposer 通用性。
圖 (a-c)VideoComposer 能夠生成符合文本、空間和時間條件或其子集的視頻;(d)VideoComposer 可以僅僅利用兩筆畫來生成滿足梵高風(fēng)格的視頻,同時滿足預(yù)期運動模式(紅色筆畫)和形狀模式(白色筆畫)
方法介紹
Video LDM
隱空間。Video LDM 首先引入預(yù)訓(xùn)練的編碼器將輸入的視頻 映射到隱空間表達(dá) ,其中 。然后,在用預(yù)先訓(xùn)練的解碼器 D 將隱空間映射到像素空間上去 。在 VideoComposer 中,參數(shù)設(shè)置 。
擴(kuò)散模型。為了學(xué)習(xí)實際的視頻內(nèi)容分布 ,擴(kuò)散模型學(xué)習(xí)從正態(tài)分布噪聲中逐步去噪來恢復(fù)真實的視覺內(nèi)容,該過程實際上是在模擬可逆的長度為 T=1000 的馬爾可夫鏈。為了在隱空間中進(jìn)行可逆過程,Video LDM 將噪聲注入到 中,得到噪聲注入的隱變量 。然后其通過用去噪函數(shù) 作用在 和輸入條件 c 上,那么其優(yōu)化目標(biāo)如下:
為了充分探索利用空間局部的歸納偏置和序列的時間歸納偏置進(jìn)行去噪,VideoComposer 將 實例化為一個 3D UNet,同時使用時序卷積算子和交叉注意機(jī)制。
VideoComposer
組合條件。VideoComposer 將視頻分解為三種不同類型的條件,即文本條件、空間條件和關(guān)鍵的時序條件,它們可以共同確定視頻中的空間和時間模式。VideoComposer 是一個通用的組合式視頻生成框架,因此,可以根據(jù)下游應(yīng)用程序?qū)⒏嗟亩ㄖ茥l件納入 VideoComposer,不限于下述列出的條件:
文本條件:文本 (Text) 描述以粗略的視覺內(nèi)容和運動方面提供視頻的直觀指示,這也是常用的 T2V 常用的條件;
空間條件:
時序條件:
時空條件編碼器。序列條件包含豐富而復(fù)雜的時空依賴關(guān)系,對可控的指示帶來了較大挑戰(zhàn)。為了增強(qiáng)輸入條件的時序感知,該研究設(shè)計了一個時空條件編碼器(STC-encoder)來納入空時關(guān)系。具體而言,首先應(yīng)用一個輕量級的空間結(jié)構(gòu),包括兩個 2D 卷積和一個 avgPooling,用于提取局部空間信息,然后將得到的條件序列被輸入到一個時序 Transformer 層進(jìn)行時間建模。這樣,STC-encoder 可以促進(jìn)時間提示的顯式嵌入,為多樣化的輸入提供統(tǒng)一的條件植入入口,從而增強(qiáng)幀間一致性。另外,該研究在時間維度上重復(fù)單個圖像和單個草圖的空間條件,以確保它們與時間條件的一致性,從而方便條件植入過程。
通過 STC-encoder 處理條件后,最終的條件序列具有與 相同的空間形狀,然后通過元素加法融合。最后,沿通道維度將合并后的條件序列與 連接起來作為控制信號。對于文本和風(fēng)格條件,利用交叉注意力機(jī)制注入文本和風(fēng)格指導(dǎo)。
訓(xùn)練和推理
兩階段訓(xùn)練策略。雖然 VideoComposer 可以通過圖像 LDM 的預(yù)訓(xùn)練進(jìn)行初始化,其能夠在一定程度上緩解訓(xùn)練難度,但模型難以同時具有時序動態(tài)感知的能力和多條件生成的能力,這個會增加訓(xùn)練組合視頻生成的難度。因此,該研究采用了兩階段優(yōu)化策略,第一階段通過 T2V 訓(xùn)練的方法,讓模型初步具有時序建模能力;第二階段在通過組合式訓(xùn)練來優(yōu)化 VideoComposer,以達(dá)到比較好的性能。
推理。在推理過程中,采用 DDIM 來提高推理效率。并采用無分類器指導(dǎo)來確保生成結(jié)果符合指定條件。生成過程可以形式化如下:
其中,ω 是指導(dǎo)比例;c1 和 c2 是兩組條件。這種指導(dǎo)機(jī)制在兩條件集合判斷,可以通過強(qiáng)度控制來讓模型具有更加靈活的控制。
實驗結(jié)果
在實驗探索中,該研究證明作為 VideoComposer 作為統(tǒng)一模型具有通用生成框架,并在 9 項經(jīng)典任務(wù)上驗證 VideoComposer 的能力。
該研究的部分結(jié)果如下,在靜態(tài)圖片到視頻生成(圖 4)、視頻 Inpainting(圖 5)、靜態(tài)草圖生成生視頻(圖 6)、手繪運動控制視頻(圖 8)、運動遷移(圖 A12)均能體現(xiàn)可控視頻生成的優(yōu)勢。
團(tuán)隊介紹
公開信息顯示,阿里巴巴在視覺基礎(chǔ)模型上的研究主要圍繞視覺表征大模型、視覺生成式大模型及其下游應(yīng)用的研究,并在相關(guān)領(lǐng)域已經(jīng)發(fā)表 CCF-A 類論文 60 余篇以及在多項行業(yè)競賽中獲得 10 余項國際冠軍,比如可控圖像生成方法 Composer、圖文預(yù)訓(xùn)練方法 RA-CLIP 和 RLEG、未裁剪長視頻自監(jiān)督學(xué)習(xí) HiCo/HiCo++、說話人臉生成方法 LipFormer 等均出自該團(tuán)隊。
?THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@
相關(guān)稿件
時間、空間可控的視頻生成走進(jìn)現(xiàn)實,阿里大模型新作VideoComposer火了
開學(xué)第一天的祝福詞語 開學(xué)第一天祝福的語句子
[三年期基金] 中歐嘉和三年持有期A:百億基金經(jīng)理王健掌舵 三年浮盈3.07億元 管理費凈賺1221.7萬
抖音卸載了聊天記錄還有嗎(抖音卸載了聊天記錄還有嗎怎么恢復(fù)) 環(huán)球播資訊
海參的功效與作用及禁忌 海參的功效與作用及禁忌吃海參有哪些好處_當(dāng)前關(guān)注
當(dāng)前要聞:塞爾達(dá)傳說荒野之息包裹怎么擴(kuò)大(賽爾達(dá)包裹能擴(kuò)大嗎)
多地新增地方政府債務(wù)預(yù)算調(diào)整 呈現(xiàn)差異化、精準(zhǔn)化特征-世界觀點
環(huán)球報道:“油電同價”概念火熱 業(yè)內(nèi)稱或有炒作之嫌
今日熱訊:微信帳單明細(xì)怎么刪除 微信帳單明細(xì)刪除時有個人臉識別怎樣去除
孫穎莎師姐橫掃印度組合,陳夢師妹擊敗徐孝元,郭雨涵獲勝_實時
Woj:湖人將47號簽和部分現(xiàn)金交易至步行者 換來40號簽 每日熱文
第三屆中非經(jīng)貿(mào)博覽會首批入境展品運抵長沙
環(huán)球短訊!美記:步行者有意老鷹前鋒亨特但最終談判破裂 因前者不愿出7號簽
【全球速看料】瓦特是哪個世紀(jì)的人 瓦特是什么時候的人
欲借市場東風(fēng)?一個月內(nèi)連推兩款PHEV車型,廣汽本田“開卷”插混賽道 熱推薦
廣州越秀:百億產(chǎn)值先進(jìn)材料研究院項目簽約落地 當(dāng)前播報
中國乒乓球俱樂部甲A比賽重燃戰(zhàn)火,允許海外選手登場成最大看點


