UniVG 是百度開發的一種統一模態的視頻生成系統。這個系統通過處理文本和圖像兩種方式,能夠解決多種視頻生成任務。UniVG 主要分為高自由度和低自由度視頻生成兩個類別,并采用了多條件交叉注意力和偏置高斯噪聲等方法來提高生成視頻的質量。在公共學術基準 MSR-VTT 上,UniVG 取得了最低的幀間視頻差異性度量,不僅在技術性能上超越了當前的開源方法,而且與業界領先的閉源方法 Gen2 相當。
UniVG 引入了“多條件交叉注意力”技術,用于高自由度視頻生成,以生成與輸入圖像或文本語義一致的視頻。在低自由度視頻生成方面,采用了“偏置高斯噪聲”的方法,相較于傳統的完全隨機高斯噪聲更能有效地保留輸入條件的原始內容。
總的來說,UniVG 的推出為視頻生成模型領域帶來了新的可能性,提供了更靈活的輸入方式,滿足了真實世界多變的應用需求。
UniVG相關鏈接:
