CogView4 - 智譜推出的開源文生圖模型，支持漢字生成

AIHubAI布道師

CogView4是什么？

CogView4是北京智譜華章推出的開源文生圖模型，支持中英雙語輸入，擅長生成含漢字圖像。它在DPG-Bench測試中排名第一，性能卓越。具備任意分辨率生成和長提示詞輸入能力，技術領先，遵循Apache 2.0協議，適用于廣告、短視頻等創(chuàng)意領域。

CogView4的主要特性

性能卓越：CogView4在DPG-Bench基準測試中綜合評分排名第一，具備較強的復雜語義對齊和指令跟隨能力，能夠生成高質量的圖像。
中英雙語支持：支持任意長度的中英雙語輸入，擅長理解和遵循中文提示詞，能夠在畫面中生成漢字，滿足廣告、短視頻等領域的創(chuàng)意需求。
任意分辨率與提示詞長度：支持輸入任意長度的提示詞，能夠生成給定范圍內的任意分辨率圖像，提升了用戶的創(chuàng)作自由度和訓練效率。
技術領先性：
- 文本編碼器升級：將文本編碼器從純英文的T5 encoder換為具備雙語能力的GLM-4 encoder，并通過中英雙語圖文進行訓練。
- 圖像位置編碼：采用二維旋轉位置編碼（2D RoPE）來建模圖像的位置信息，并通過內插位置編碼的方式支持不同分辨率的圖像生成任務。
- 擴散生成建模：采用Flow-matching方案進行擴散生成建模，并結合參數化的線性動態(tài)噪聲規(guī)劃，以適應不同分辨率圖像的信噪比需求。
- 架構設計：在DiT模型架構上，延續(xù)了上一代的Share-param DiT架構，并為文本和圖像模態(tài)分別設計獨立的自適應LayerNorm層。
- 多階段訓練：采用多階段訓練策略，包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練。
- 訓練框架優(yōu)化：突破了傳統(tǒng)固定token長度的限制，允許更高的token上限，并顯著減少了訓練過程中的文本token冗余。
遵循Apache 2.0協議：CogView4模型支持Apache 2.0協議，后續(xù)會陸續(xù)增加ControlNet、ComfyUI等生態(tài)支持，全套的微調工具包也即將推出。

CogView4的適合場景

廣告創(chuàng)意：CogView4能夠根據中英雙語提示詞生成高質量的圖像，滿足廣告設計中的創(chuàng)意需求，如生成帶有特定文字的海報、文案配圖等。
短視頻制作：CogView4為短視頻創(chuàng)作者提供便捷的圖像生成工具，根據視頻腳本或創(chuàng)意描述生成相應的畫面，提高短視頻的制作效率和質量。
藝術創(chuàng)作：藝術家和設計師可以利用CogView4生成具有特定風格和意境的圖像，激發(fā)創(chuàng)作靈感，輔助藝術作品的創(chuàng)作。
教育領域：教師可以利用該模型生成與教學內容相關的圖像，如古詩文的意境圖、歷史事件的場景圖等，增強教學的趣味性和直觀性。
游戲開發(fā)：游戲開發(fā)者可以根據游戲劇情和角色設定生成相應的游戲畫面和角色形象，提高游戲開發(fā)的效率和質量。
其他創(chuàng)意領域：如漫畫創(chuàng)作、插畫設計、品牌宣傳等，CogView4都能夠根據用戶的需求生成相應的高質量圖像，滿足不同創(chuàng)意領域的創(chuàng)作需求。