
CoDi是什么?
CoDi (Composable Diffusion) 是一個新穎的生成模型,能夠從任何組合的輸入模態(如語言、圖像、視頻或音頻)生成任何組合的輸出模態。
更多 demo 體驗:https://codi-gen.github.io/
與現有的生成 AI 系統不同,CoDi 可以并行生成多種模態,其輸入不僅限于文本或圖像等子集模態。盡管許多模態組合的訓練數據集不存在,但我們提出在輸入和輸出空間中對模態進行對齊。這使 CoDi 能夠自由地根據任何輸入組合進行條件設置,并生成任何模態組,即使它們在訓練數據中不存在。CoDi 采用了一種新穎的可組合生成策略,該策略涉及通過在擴散過程中建立對齊來構建共享的多模態空間,從而實現交織模態(如時間對齊的視頻和音頻)的同步生成。CoDi 高度定制化和靈活,實現了強大的聯合模態生成質量,并與單模態合成的最新技術相媲美或者在同等水平。
CoDi 的模型架構使用了多階段訓練方案,使其能夠僅對線性數量的任務進行訓練,但對所有輸入和輸出模態的組合進行推理。
CoDi 的使用示例包括:
- 多輸出聯合生成:模型接受單個或多個提示(包括視頻、圖像、文本或音頻),生成多個對齊的輸出,如伴有聲音的視頻。
- 多條件生成:模型接受多個輸入(包括視頻、圖像、文本或音頻)生成輸出。
- 單對單生成:模型接受單個提示(包括視頻、圖像、文本或音頻)生成單個輸出。
如何使用?
CoDi 的研究論文已經發布在 arXiv 上,論文標題為 "Any-to-Any Generation via Composable Diffusion"。
論文地址:http://arxiv.org/abs/2305.11846
GitHub代碼:https://github.com/microsoft/i-Code/tree/main/i-Code-V3
演示視頻:
