CogView4是什么?
CogView4是北京智譜華章推出的開源文生圖模型,支持中英雙語輸入,擅長生成含漢字圖像。它在DPG-Bench測試中排名第一,性能卓越。具備任意分辨率生成和長提示詞輸入能力,技術領先,遵循Apache 2.0協議,適用于廣告、短視頻等創(chuàng)意領域。

CogView4的主要特性
- 性能卓越:CogView4在DPG-Bench基準測試中綜合評分排名第一,具備較強的復雜語義對齊和指令跟隨能力,能夠生成高質量的圖像。
- 中英雙語支持:支持任意長度的中英雙語輸入,擅長理解和遵循中文提示詞,能夠在畫面中生成漢字,滿足廣告、短視頻等領域的創(chuàng)意需求。
- 任意分辨率與提示詞長度:支持輸入任意長度的提示詞,能夠生成給定范圍內的任意分辨率圖像,提升了用戶的創(chuàng)作自由度和訓練效率。
- 技術領先性:
- 文本編碼器升級:將文本編碼器從純英文的T5 encoder換為具備雙語能力的GLM-4 encoder,并通過中英雙語圖文進行訓練。
- 圖像位置編碼:采用二維旋轉位置編碼(2D RoPE)來建模圖像的位置信息,并通過內插位置編碼的方式支持不同分辨率的圖像生成任務。
- 擴散生成建模:采用Flow-matching方案進行擴散生成建模,并結合參數化的線性動態(tài)噪聲規(guī)劃,以適應不同分辨率圖像的信噪比需求。
- 架構設計:在DiT模型架構上,延續(xù)了上一代的Share-param DiT架構,并為文本和圖像模態(tài)分別設計獨立的自適應LayerNorm層。
- 多階段訓練:采用多階段訓練策略,包括基礎分辨率訓練、泛分辨率訓練、高質量數據微調以及人類偏好對齊訓練。
- 訓練框架優(yōu)化:突破了傳統(tǒng)固定token長度的限制,允許更高的token上限,并顯著減少了訓練過程中的文本token冗余。
- 遵循Apache 2.0協議:CogView4模型支持Apache 2.0協議,后續(xù)會陸續(xù)增加ControlNet、ComfyUI等生態(tài)支持,全套的微調工具包也即將推出。
CogView4的適合場景
- 廣告創(chuàng)意:CogView4能夠根據中英雙語提示詞生成高質量的圖像,滿足廣告設計中的創(chuàng)意需求,如生成帶有特定文字的海報、文案配圖等。
- 短視頻制作:CogView4為短視頻創(chuàng)作者提供便捷的圖像生成工具,根據視頻腳本或創(chuàng)意描述生成相應的畫面,提高短視頻的制作效率和質量。
- 藝術創(chuàng)作:藝術家和設計師可以利用CogView4生成具有特定風格和意境的圖像,激發(fā)創(chuàng)作靈感,輔助藝術作品的創(chuàng)作。
- 教育領域:教師可以利用該模型生成與教學內容相關的圖像,如古詩文的意境圖、歷史事件的場景圖等,增強教學的趣味性和直觀性。
- 游戲開發(fā):游戲開發(fā)者可以根據游戲劇情和角色設定生成相應的游戲畫面和角色形象,提高游戲開發(fā)的效率和質量。
- 其他創(chuàng)意領域:如漫畫創(chuàng)作、插畫設計、品牌宣傳等,CogView4都能夠根據用戶的需求生成相應的高質量圖像,滿足不同創(chuàng)意領域的創(chuàng)作需求。
如何使用CogView4?
最新的 CogView4-0304 版本現已開源,并將于3 月 13 日上線智譜清言(chatglm.cn)。
- 在線體驗地址:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
- 開源倉庫地址:https://github.com/THUDM/CogView4
- 模型倉庫地址: https://huggingface.co/THUDM/CogView4-6B
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發(fā)布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
