Step-Video-T2V是什么?
Step-Video-T2V是階躍星辰與吉利聯合開源的一款高性能視頻生成大模型,具備300億參數量,能夠生成540P分辨率的高質量視頻。它支持復雜運動場景、精準鏡頭控制和生動人物生成,能夠根據文本輸入生成符合物理規律的視頻。該模型在全球開源視頻生成領域表現突出,適用于創意視頻制作、動畫制作和影視廣告等場景,提供高質量的創意視頻呈現。

Step-Video-T2V的主要特性
- 高性能生成:Step-Video-T2V模型擁有300億參數,能夠生成204幀、540P分辨率的視頻,確保高質量的視頻輸出。
- 復雜運動控制:Step-Video-T2V能準確生成復雜運動場景,如芭蕾舞、空手道等,運動自然且符合物理規律。
- 精準鏡頭控制:Step-Video-T2V支持多種鏡頭運動(推、拉、搖、移、旋轉、跟隨等),可實現流暢的鏡頭切換和大幅度運鏡。
- 生動人物生成:Step-Video-T2V生成的角色形象細膩、表情自然,五官、發型和皮膚紋理等細節更加真實。
- 語義理解與指令遵循:Step-Video-T2V具備強大的語義理解能力,能夠根據文本指令生成準確的視頻內容。
- 高質量創意呈現:Step-Video-T2V特別適用于創意視頻制作,能夠幫助創作者實現精準的創意表達和復雜場景的呈現。
Step-Video-T2V的性能評測
在Step-Video-T2V-Eval評測集上的評測中,Step-Video-T2V展示了優異的指令遵循、運動平滑性和物理合理性,生成的視頻在多個類別(如運動、人物、風景等)中都展現出高質量的視覺效果,遠超其他開源視頻生成模型,特別是在復雜運動和場景生成方面具有顯著優勢。

Step-Video-T2V的應用場景
- 創意視頻制作:為視頻創作者提供強大的工具,幫助生成復雜場景和精細化的創意視頻內容,適用于廣告制作、短視頻創作等。
- 動畫與影視制作:在動畫和影視行業中,可以用于生成高質量的虛擬角色、動態場景和復雜動作,提升創作效率。
- 虛擬現實(VR)與增強現實(AR):可用于創建沉浸式的虛擬環境和互動視頻,適應VR/AR應用中的動態場景生成需求。
- 游戲開發:在游戲中,Step-Video-T2V能夠生成高質量的過場動畫和角色動作,增強游戲的視覺體驗。
- 教育與培訓:用于生成教學視頻、模擬實驗和場景再現,提供生動直觀的學習內容。
如何使用Step-Video-T2V?
1、在線體驗:
目前Step-Video-T2V已經上線到躍問網頁端(https://yuewen.cn/videos)和躍問 App 上,感興趣可以去體驗下 。
2、開源資源:
- GitHub:https://github.com/stepfun-ai/Step-Video-T2V
- Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v
- 技術報告:https://arxiv.org/abs/2502.10248
