Pyramid-Flow是什么?
Pyramid-Flow是由快手、北京大學和北京郵電大學聯合組建的研究團隊推出的開源超高清視頻生成模型,該模型能根據文本描述生成最長 10 秒、分辨率高達 1280x768、幀率 24fps 的高質量視頻。
Pyramid Flow 文生視頻模型主要面向開發者、藝術家和創作者等,提供更高效、更靈活的視頻生成解決方案,目前已經在 Hugging Face 平臺上線,并完全開源。
Pyramid Flow 的視頻示例
Pyramid Flow 的核心特點
- 高效生成:Pyramid Flow 采用新技術,通過統一 AI 模型分階段生成視頻,大多數階段為低分辨率,只有最后階段為全分辨率。這種“金字塔流匹配”方法保持了視頻的高視覺質量前提下,大幅降低了計算成本,tokens 數量是傳統 diffusion 模型的四分之一。
- 快速推理:在推理過程中,該模型可以在 56 秒內生成一個 5 秒、384p 的視頻,速度媲美許多全序列 diffusion 模型,甚至更快。
- 開源和商業使用:Pyramid-Flow 在 MIT 許可證下發布,允許廣泛的使用,包括商業應用、修改和再分發,吸引了希望將模型集成到專有系統中的開發者和公司。
如何使用Pyramid Flow?
Pyramid Flow發布了論文,開源了代碼、模型,提供了在線體驗demo:
- Pyramid Flow項目官網:https://pyramid-flow.github.io/
- Pyramid Flow在線體驗demo:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
- Pyramid Flow論文地址:https://arxiv.org/pdf/2410.05954
- GitHub代碼:https://github.com/jy0205/Pyramid-Flow;
- Hugging Face模型下載:https://huggingface.co/rain1011/pyramid-flow-sd3
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
