欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

訊飛智文
當(dāng)前位置:首頁(yè)>AI工具>AI訓(xùn)練模型>Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3是什么?

Emu3是由北京智源研究院推出的原生多模態(tài)世界模型,旨在簡(jiǎn)化和提升多模態(tài)任務(wù)的處理能力。多模態(tài)任務(wù)指的是同時(shí)處理不同類型的數(shù)據(jù)(如圖像、視頻、文本等)。與依賴擴(kuò)散模型(如 Stable Diffusion)或組合架構(gòu)(如 CLIP 與大型語(yǔ)言模型結(jié)合)的傳統(tǒng)方法不同,Emu3 采用了 next-token 預(yù)測(cè)技術(shù),將圖像、文本、視頻轉(zhuǎn)化為離散的 token,并使用單一的 Transformer 模型進(jìn)行訓(xùn)練。

Emu3只基于下一個(gè) token 預(yù)測(cè),無(wú)需擴(kuò)散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成,官方宣稱實(shí)現(xiàn)圖像、文本、視頻大一統(tǒng)。

Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3的功能特性

  • 圖像生成:Emu3 通過預(yù)測(cè)視覺 token 來生成高質(zhì)量圖像,支持靈活的分辨率和風(fēng)格,不再需要擴(kuò)散模型,生成過程更為高效。
  • 視頻生成:與依賴噪聲生成視頻的擴(kuò)散模型不同,Emu3 通過預(yù)測(cè)視頻序列中的下一個(gè) token 來生成視頻,使整個(gè)過程更加簡(jiǎn)潔高效。
  • 視頻預(yù)測(cè):Emu3 能夠?qū)σ曨l進(jìn)行延續(xù)預(yù)測(cè),模擬現(xiàn)實(shí)世界中的環(huán)境、人物和動(dòng)物行為,展現(xiàn)強(qiáng)大的物理世界模擬能力。
  • 視覺-語(yǔ)言理解:Emu3 展現(xiàn)了強(qiáng)大的視覺和語(yǔ)言感知能力,可以對(duì)圖像進(jìn)行詳細(xì)描述,并提供連貫的文本回復(fù),而無(wú)需依賴 CLIP 和預(yù)訓(xùn)練的大型語(yǔ)言模型。
  • 多模態(tài)整合:Emu3 通過將文本、圖像和視頻轉(zhuǎn)化為離散 token,并統(tǒng)一使用 Transformer 進(jìn)行訓(xùn)練,實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的整合。該模型能夠在多個(gè)領(lǐng)域(圖像、視頻、文本)表現(xiàn)出色,并且可以同時(shí)處理這些不同模態(tài)的數(shù)據(jù),適用于多模態(tài)任務(wù)。
  • 無(wú)擴(kuò)散、無(wú)組合架構(gòu):Emu3 的設(shè)計(jì)拋棄了傳統(tǒng)的擴(kuò)散模型和組合架構(gòu),專注于 token 預(yù)測(cè)。這種設(shè)計(jì)使得模型在訓(xùn)練和推理過程中能夠更高效地?cái)U(kuò)展。減少了對(duì)傳統(tǒng)復(fù)雜架構(gòu)的依賴,提高了模型的可擴(kuò)展性,適用于更多任務(wù)和更大規(guī)模的數(shù)據(jù)集。
Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

Emu3的性能評(píng)測(cè)

在圖像生成任務(wù)中,基于人類偏好評(píng)測(cè),Emu3 優(yōu)于 SD-1.5 與 SDXL 模型。在視覺語(yǔ)言理解任務(wù)中,對(duì)于 12 項(xiàng)基準(zhǔn)測(cè)試的平均得分,Emu3 優(yōu)于 LlaVA-1.6。在視頻生成任務(wù)中,對(duì)于 VBench 基準(zhǔn)測(cè)試得分,Emu3 優(yōu)于 OpenSora 1.2。

Emu3:智源推出的原生多模態(tài)世界模型,可實(shí)現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成

如何使用Emu3?

目前 Emu3 已開源了關(guān)鍵技術(shù)和模型,鏈接如下:

?版權(quán)聲明:如無(wú)特殊說明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。否則,我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。 Trae
0 條回復(fù) A文章作者 M管理員
    暫無(wú)評(píng)論內(nèi)容
error:
主站蜘蛛池模板: 醴陵市| 东山县| 界首市| 泰兴市| 临潭县| 富锦市| 沙坪坝区| 依兰县| 朝阳区| 湟中县| 万山特区| 喜德县| 田阳县| 广宗县| 安龙县| 淮南市| 盘山县| 罗田县| 武强县| 长寿区| 特克斯县| 文登市| 区。| 邯郸县| 东阿县| 吴川市| 收藏| 桦南县| 安达市| 静乐县| 阿图什市| 新竹市| 开阳县| 江陵县| 临澧县| 苏州市| 宁武县| 息烽县| 盖州市| 乐山市| 固镇县|