Emu3是什么?
Emu3是由北京智源研究院推出的原生多模態世界模型,旨在簡化和提升多模態任務的處理能力。多模態任務指的是同時處理不同類型的數據(如圖像、視頻、文本等)。與依賴擴散模型(如 Stable Diffusion)或組合架構(如 CLIP 與大型語言模型結合)的傳統方法不同,Emu3 采用了 next-token 預測技術,將圖像、文本、視頻轉化為離散的 token,并使用單一的 Transformer 模型進行訓練。
Emu3只基于下一個 token 預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成,官方宣稱實現圖像、文本、視頻大一統。

Emu3的功能特性
- 圖像生成:Emu3 通過預測視覺 token 來生成高質量圖像,支持靈活的分辨率和風格,不再需要擴散模型,生成過程更為高效。
- 視頻生成:與依賴噪聲生成視頻的擴散模型不同,Emu3 通過預測視頻序列中的下一個 token 來生成視頻,使整個過程更加簡潔高效。
- 視頻預測:Emu3 能夠對視頻進行延續預測,模擬現實世界中的環境、人物和動物行為,展現強大的物理世界模擬能力。
- 視覺-語言理解:Emu3 展現了強大的視覺和語言感知能力,可以對圖像進行詳細描述,并提供連貫的文本回復,而無需依賴 CLIP 和預訓練的大型語言模型。
- 多模態整合:Emu3 通過將文本、圖像和視頻轉化為離散 token,并統一使用 Transformer 進行訓練,實現了多模態數據的整合。該模型能夠在多個領域(圖像、視頻、文本)表現出色,并且可以同時處理這些不同模態的數據,適用于多模態任務。
- 無擴散、無組合架構:Emu3 的設計拋棄了傳統的擴散模型和組合架構,專注于 token 預測。這種設計使得模型在訓練和推理過程中能夠更高效地擴展。減少了對傳統復雜架構的依賴,提高了模型的可擴展性,適用于更多任務和更大規模的數據集。

Emu3的性能評測
在圖像生成任務中,基于人類偏好評測,Emu3 優于 SD-1.5 與 SDXL 模型。在視覺語言理解任務中,對于 12 項基準測試的平均得分,Emu3 優于 LlaVA-1.6。在視頻生成任務中,對于 VBench 基準測試得分,Emu3 優于 OpenSora 1.2。

如何使用Emu3?
目前 Emu3 已開源了關鍵技術和模型,鏈接如下:
- Emu3 官網:https://emu.baai.ac.cn/
- Emu3 代碼:https://github.com/baaivision/Emu3
- Emu3 模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。

