欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

即夢AI
當前位置:首頁>AI模型>Emu3:智源推出的原生多模態世界模型,可實現圖像、文本、視頻的統一理解和生成

Emu3:智源推出的原生多模態世界模型,可實現圖像、文本、視頻的統一理解和生成

Emu3是什么?

Emu3是由北京智源研究院推出的原生多模態世界模型,旨在簡化和提升多模態任務的處理能力。多模態任務指的是同時處理不同類型的數據(如圖像、視頻、文本等)。與依賴擴散模型(如 Stable Diffusion)或組合架構(如 CLIP 與大型語言模型結合)的傳統方法不同,Emu3 采用了 next-token 預測技術,將圖像、文本、視頻轉化為離散的 token,并使用單一的 Transformer 模型進行訓練。

Emu3只基于下一個 token 預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成,官方宣稱實現圖像、文本、視頻大一統。

Emu3:智源推出的原生多模態世界模型,可實現圖像、文本、視頻的統一理解和生成

Emu3的功能特性

  • 圖像生成:Emu3 通過預測視覺 token 來生成高質量圖像,支持靈活的分辨率和風格,不再需要擴散模型,生成過程更為高效。
  • 視頻生成:與依賴噪聲生成視頻的擴散模型不同,Emu3 通過預測視頻序列中的下一個 token 來生成視頻,使整個過程更加簡潔高效。
  • 視頻預測:Emu3 能夠對視頻進行延續預測,模擬現實世界中的環境、人物和動物行為,展現強大的物理世界模擬能力。
  • 視覺-語言理解:Emu3 展現了強大的視覺和語言感知能力,可以對圖像進行詳細描述,并提供連貫的文本回復,而無需依賴 CLIP 和預訓練的大型語言模型。
  • 多模態整合:Emu3 通過將文本、圖像和視頻轉化為離散 token,并統一使用 Transformer 進行訓練,實現了多模態數據的整合。該模型能夠在多個領域(圖像、視頻、文本)表現出色,并且可以同時處理這些不同模態的數據,適用于多模態任務。
  • 無擴散、無組合架構:Emu3 的設計拋棄了傳統的擴散模型和組合架構,專注于 token 預測。這種設計使得模型在訓練和推理過程中能夠更高效地擴展。減少了對傳統復雜架構的依賴,提高了模型的可擴展性,適用于更多任務和更大規模的數據集。
Emu3:智源推出的原生多模態世界模型,可實現圖像、文本、視頻的統一理解和生成

Emu3的性能評測

在圖像生成任務中,基于人類偏好評測,Emu3 優于 SD-1.5 與 SDXL 模型。在視覺語言理解任務中,對于 12 項基準測試的平均得分,Emu3 優于 LlaVA-1.6。在視頻生成任務中,對于 VBench 基準測試得分,Emu3 優于 OpenSora 1.2。

Emu3:智源推出的原生多模態世界模型,可實現圖像、文本、視頻的統一理解和生成

如何使用Emu3?

目前 Emu3 已開源了關鍵技術和模型,鏈接如下:

?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。 Trae
主站蜘蛛池模板: 浠水县| 白水县| 河源市| 孟村| 嘉鱼县| 呼和浩特市| 博罗县| 布尔津县| 眉山市| 丰都县| 巨鹿县| 沈阳市| 惠来县| 张家港市| 威宁| 伽师县| 年辖:市辖区| 文成县| 阜康市| 新宾| 文登市| 拉孜县| 怀集县| 辽宁省| 海宁市| 卢湾区| 罗山县| 嘉善县| 荔浦县| 辽阳县| 永善县| 巫溪县| 吴桥县| 凉山| 宿迁市| 诏安县| 咸阳市| 深水埗区| 叶城县| 石狮市| 交城县|