近日,谷歌與李飛飛的斯坦福團隊攜手推出了基于Transformer的視頻生成模型W.A.L.T。該模型利用因果編碼器和窗口注意的變壓器架構,成功將圖像和視頻壓縮到一個共享的潛在空間,實現了聯合訓練和生成。這一創新性的模型不僅在已建立的視頻和圖像生成基準測試上取得了SOTA,還展示了在文本到視頻生成任務中的卓越性能。

這種方法有兩個關鍵的設計決策。首先,它使用因果編碼器共同壓縮圖像和視頻,使其在統一的潛在空間內進行訓練和生成,支持跨模態操作。其次,為了內存和訓練效率,它使用了專為聯合空間和時空生成建模量身定制的窗口注意力架構。這些設計決策的結合使得W.A.L.T在已建立的視頻(如UCF-101和Kinetics-600)和圖像(如ImageNet)生成基準測試中達到了最先進的性能,而且不需要使用無分類器的引導。
W.A.L.T官方演示視頻:
W.A.L.T項目地址:https://walt-video-diffusion.github.io/
