近日,谷歌與李飛飛的斯坦福團隊攜手推出了基于Transformer的視頻生成模型W.A.L.T。該模型利用因果編碼器和窗口注意的變壓器架構,成功將圖像和視頻壓縮到一個共享的潛在空間,實現了聯合訓練和生成。這一創新性的模型不僅在已建立的視頻和圖像生成基準測試上取得了SOTA,還展示了在文本到視頻生成任務中的卓越性能。

這種方法有兩個關鍵的設計決策。首先,它使用因果編碼器共同壓縮圖像和視頻,使其在統一的潛在空間內進行訓練和生成,支持跨模態操作。其次,為了內存和訓練效率,它使用了專為聯合空間和時空生成建模量身定制的窗口注意力架構。這些設計決策的結合使得W.A.L.T在已建立的視頻(如UCF-101和Kinetics-600)和圖像(如ImageNet)生成基準測試中達到了最先進的性能,而且不需要使用無分類器的引導。
W.A.L.T官方演示視頻:
W.A.L.T項目地址:https://walt-video-diffusion.github.io/
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。

