
AIHub 3月5日最新消息,Stability AI 發布了關于其最新研究成果 Stable Diffusion 3 的研究論文。這篇論文深入探討了 Stable Diffusion 3 的底層技術,這是一種文本到圖像生成系統,據稱在字體排版和提示遵循方面超越了現有的最先進系統,如 DALL·E 3、Midjourney v6 和 Ideogram v1。Stable Diffusion 3 采用了新的多模態擴散變換器(MMDiT)架構,該架構為圖像和語言表示使用不同的權重集,從而提高了文本理解和拼寫能力。
研究論文的主要要點包括:
- 性能提升:Stable Diffusion 3 在視覺美學、提示遵循和字體排版方面,基于人類偏好評估,與競爭模型相比表現優異。
- MMDiT架構:新架構允許圖像和文本標記之間的信息流動,以改善輸出的整體理解和排版。
- 改進的Rectified Flows:通過重新加權,Stable Diffusion 3 在訓練過程中采用了一種新的軌跡采樣計劃,提高了性能。
- 可擴展性:MMDiT架構易于擴展到多種模態,如視頻。
- 靈活的文本編碼器:在推理過程中移除內存密集型的 T5 文本編碼器,可以顯著降低 SD3 的內存需求,同時只有微小的性能損失。
- 硬件兼容性:在消費級硬件上,最大的 SD3 模型(8B 參數)可以在 RTX 4090 的 24GB VRAM 中運行,并在 50 次采樣步驟下,34 秒內生成 1024x1024 分辨率的圖像。
- 模型變體:初始發布將包括從 800M 到 8B 參數的多種 Stable Diffusion 3 模型變體,以進一步消除硬件障礙。
這篇研究論文將在 arXiv 上提供,并且 Stability AI 邀請感興趣的人注冊等待列表,以參與 Stable Diffusion 3 的早期預覽。
- 論文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
- 官方博客:https://stability.ai/news/stable-diffusion-3-research-paper
Stable Diffusion 3 詳細介紹,點此了解。
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
