亚洲国产精品国自产拍av秋霞,欧美日韩一区二区三区四区五区,国产一区不卡精品

AIHub 3月5日最新消息，Stability AI 發布了關于其最新研究成果 Stable Diffusion 3 的研究論文。這篇論文深入探討了 Stable Diffusion 3 的底層技術，這是一種文本到圖像生成系統，據稱在字體排版和提示遵循方面超越了現有的最先進系統，如 DALL·E 3、Midjourney v6 和 Ideogram v1。Stable Diffusion 3 采用了新的多模態擴散變換器（MMDiT）架構，該架構為圖像和語言表示使用不同的權重集，從而提高了文本理解和拼寫能力。

研究論文的主要要點包括：

性能提升：Stable Diffusion 3 在視覺美學、提示遵循和字體排版方面，基于人類偏好評估，與競爭模型相比表現優異。
MMDiT架構：新架構允許圖像和文本標記之間的信息流動，以改善輸出的整體理解和排版。
改進的Rectified Flows：通過重新加權，Stable Diffusion 3 在訓練過程中采用了一種新的軌跡采樣計劃，提高了性能。
可擴展性：MMDiT架構易于擴展到多種模態，如視頻。
靈活的文本編碼器：在推理過程中移除內存密集型的 T5 文本編碼器，可以顯著降低 SD3 的內存需求，同時只有微小的性能損失。
硬件兼容性：在消費級硬件上，最大的 SD3 模型（8B 參數）可以在 RTX 4090 的 24GB VRAM 中運行，并在 50 次采樣步驟下，34 秒內生成 1024x1024 分辨率的圖像。
模型變體：初始發布將包括從 800M 到 8B 參數的多種 Stable Diffusion 3 模型變體，以進一步消除硬件障礙。