通義萬相Wan2.1是什么?
通義萬相Wan2.1是阿里巴巴推出的開源視頻生成大模型,專注于高質(zhì)量視頻生成,一共包含4個模型,文生視頻模型有1.3B和14B兩個規(guī)格。圖生視頻模型都是14B,分辨率一個480P一個720P。Wan2.1 在處理復雜運動、還原真實物理規(guī)律、提升影視質(zhì)感以及優(yōu)化指令遵循方面具有顯著的優(yōu)勢,無論是創(chuàng)作者、開發(fā)者還是企業(yè)用戶,都可以根據(jù)自己的需求選擇合適的模型和功能,輕松實現(xiàn)高質(zhì)量的視頻生成。
同時,萬相還支持業(yè)內(nèi)領(lǐng)先的中英文文字特效生成,滿足廣告、短視頻等領(lǐng)域的創(chuàng)意需求。
在權(quán)威評測集VBench中,萬相以總分86.22%的成績登上榜首位置,大幅領(lǐng)先了Sora、Minimax、Luma、Gen3、Pika等國內(nèi)外視頻生成模型。

通義萬相Wan2.1的功能特點
- 高質(zhì)量視頻生成:通義萬相Wan2.1能夠生成逼真的視覺效果,嚴格遵循物理規(guī)則,提升畫面的像素質(zhì)量和真實感。
- 復雜運動處理:通義萬相Wan2.1擅長處理大規(guī)模肢體運動和復雜旋轉(zhuǎn),如花樣滑冰、游泳等場景,保持身體協(xié)調(diào)性和真實運動軌跡。
- 多語言文字特效:通義萬相Wan2.1支持中英文文字特效,滿足廣告設(shè)計和短視頻制作等行業(yè)的需求。
- 高效編解碼技術(shù):通義萬相Wan2.1采用自研的 VAE(變分自編碼器)和 DiT(去噪擴散 Transformer)架構(gòu),支持無限長 1080P 視頻的高效編解碼。
- 物理規(guī)律還原:通義萬相Wan2.1精準模擬現(xiàn)實世界中的物理規(guī)律,如碰撞、反彈等,進一步提升畫面逼真度。
- 超長上下文訓練:通義萬相Wan2.1支持超長上下文,確保文本指令與視頻生成的精準對應,提升生成效率。
通義萬相Wan2.1的技術(shù)原理
通義萬相Wan2.1基于主流的DiT和線性噪聲軌跡Flow Matching范式,萬相大模型通過一系列技術(shù)創(chuàng)新實現(xiàn)了生成能力的重大進步。包括自研高效的3D因果VAE、可擴展的預訓練策略、大規(guī)模數(shù)據(jù)鏈路構(gòu)建以及自動化評估指標,這些創(chuàng)新共同提升了模型的最終性能表現(xiàn)。
視頻編碼與解碼
- 自研高效的3D因果VAE:基于3D因果VAE模塊,實現(xiàn)256倍無損視頻隱空間壓縮,通過特征緩存機制分塊處理視頻,避免對長視頻進行端到端編解碼,支持無限長1080P視頻的高效編解碼,并減少29%的推理時內(nèi)存占用。
視頻生成
- 視頻Diffusion Transformer:基于視頻DiT結(jié)構(gòu),通過Full Attention機制建模長時程時空依賴,生成高質(zhì)量視頻。采用Flow Matching方法進行噪聲采樣,確保模型快速收斂并提升訓練效率。利用多語言umT5編碼器對輸入文本進行語義編碼,并通過交叉注意力層將文本特征注入Transformer Block,實現(xiàn)細粒度語義對齊。
數(shù)據(jù)處理
- 四步數(shù)據(jù)清洗流程:在預訓練階段,從龐大但嘈雜的初始數(shù)據(jù)集中選取高質(zhì)量且多樣化的數(shù)據(jù),重點關(guān)注基礎(chǔ)維度、視覺質(zhì)量和運動質(zhì)量,逐步增加分辨率和視頻時長,讓模型在有限算力下得到充分訓練。最終的SFT階段進行嚴格的數(shù)據(jù)過濾,保障模型穩(wěn)定收斂到高質(zhì)量視頻輸出。
模型訓練與推理優(yōu)化
- 訓練階段:文本、視頻編碼模塊采用DP和FSDP組合的分布式策略,DiT模塊采用DP、FSDP、RingAttention、Ulysses混合的并行策略。使用Context Parallelism對sequence維度進行切分,并采用2DCP方案減少通信開銷。同時,采用分層的顯存優(yōu)化策略和細粒度Gradient Checkpointing進一步優(yōu)化顯存。
- 推理階段:采用FSDP和2D CP的組合方法進行模型切分和序列并行,使用step間cache和CFG cache的方法減少實際計算量,性能提升約61%。使用量化方法,如fp8gemm和FlashAttention3 INT8/FP8混合算子進行attention部分的8bit量化,端到端性能提升30%以上。
通義萬相Wan2.1的性能評測
在權(quán)威評測集VBench中,萬相以總分86.22%的成績登上榜首位置,大幅領(lǐng)先了Sora、Minimax、Luma、Gen3、Pika等國內(nèi)外視頻生成模型。

通義萬相Wan2.1 的應用場景
- 內(nèi)容創(chuàng)作:通義萬相Wan2.1 可以快速生成高質(zhì)量的短視頻內(nèi)容,支持多種藝術(shù)風格模板,如油畫、賽博朋克等,幫助創(chuàng)作者提升創(chuàng)作效率和內(nèi)容多樣性,滿足不同平臺和受眾的需求。
- 廣告與營銷:該模型能夠根據(jù)品牌需求生成個性化的廣告視頻,支持動態(tài)字幕和特效生成,提升廣告的吸引力和傳播效果,為廣告設(shè)計和短視頻制作提供強大的創(chuàng)意支持。
- 教育培訓:通義萬相Wan2.1可以生成沉浸式教學視頻,通過生動的視覺效果和動態(tài)演示,幫助學生更好地理解和掌握復雜概念,提升教學效果和學習體驗。
- 影視制作:通義萬相Wan2.1支持電影級運鏡效果和復雜肢體動作的生成,能夠精準模擬碰撞、反彈等物理現(xiàn)象,為影視特效和動畫制作提供逼真的場景和動態(tài)效果,提升制作效率和視覺質(zhì)量。
- 游戲與娛樂:該模型可用于生成沉浸式的虛擬場景和動畫效果,支持實時場景渲染,為游戲開發(fā)和虛擬現(xiàn)實應用提供高效的視覺內(nèi)容生成能力,增強用戶體驗。
如何體驗通義萬相Wan2.1?
通義萬相Wan2.1已經(jīng)在GitHub、Hugging Face、魔搭社區(qū)等平臺開源,支持多種主流框架。無論是開發(fā)者還是研究者,都可以通過Gradio快速體驗,或利用 xDiT 并行加速推理提升效率。
1、在線體驗:
- 通義萬相中文站:https://tongyi.aliyun.com/wanxiang/
- 通義萬相國際站:https://wanxai.com
2、API服務:
3、開源鏈接:
- Huggingface:https://huggingface.co/Wan-AI
- GitHub:https://github.com/Wan-Video/Wan2.1
- 魔搭社區(qū):https://www.modelscope.cn/collections/tongyiwanxiang-Wan21-shipinshengcheng-67ec9b23fd8d4f
