Skywork UniPic 2.0是什么?
UniPic 2.0 是昆侖萬(wàn)維 Skywork 多模態(tài)團(tuán)隊(duì)提出的統(tǒng)一多模態(tài)模型,集理解、生成和編輯于一體:在 SD3.5-Medium 上改造的 2B 參數(shù) DiT,通過(guò)在線強(qiáng)化學(xué)習(xí)與雙任務(wù)漸進(jìn)強(qiáng)化同時(shí)提升文本生成圖像與圖像編輯效果,并據(jù)此與 Qwen2.5-VL-7B 連接訓(xùn)練出統(tǒng)一模型 UniPic2-Metaquery,實(shí)現(xiàn)理解-生成-編輯一體化;其生成與編輯表現(xiàn)超過(guò) BAGEL(7B)與 FLUX-Kontext(12B)。

Skywork UniPic 2.0的功能特性
- 文本生成圖像:多風(fēng)格、高保真出圖,在美學(xué)與一致性等指標(biāo)上展示開(kāi)源同級(jí)領(lǐng)先表現(xiàn)。
- 圖像編輯:支持改字、換姿、風(fēng)格遷移、元素增刪與局部定向編輯,編輯可控且一致。
- 統(tǒng)一“理解—生成—編輯”:通過(guò)與 Qwen2.5-VL-7B 連接訓(xùn)練,形成 UniPic2-Metaquery,一套模型完成視覺(jué)理解、生成與編輯聯(lián)動(dòng)。
- 在線RL + 雙任務(wù)漸進(jìn)強(qiáng)化:采用在線強(qiáng)化學(xué)習(xí)與“生成/編輯”漸進(jìn)強(qiáng)化策略,增強(qiáng)指令跟隨與編輯一致性,兩任務(wù)互相增益。
- 輕量 DiT 架構(gòu)(Kontext):基于 SD3.5-Medium 改造的 2B 參數(shù) DiT,在較低推理成本下取得強(qiáng)效果。
Skywork UniPic 2.0的模型性能
UniPic2-SD3.5M-Kontext作為單一模型,雖然只有2B的參數(shù)量,但生圖指標(biāo)超越了具有12B參數(shù)量的Flux.dev、編輯效果超越了同樣具有12B參數(shù)量的Flux-Kontext。同樣超越了幾乎所有統(tǒng)一模型的生圖和編輯效果,包括19B的UniWorld-V1和14B的Bagel。此外,將UniPic2-SD3.5M-Kontext拓展成統(tǒng)一模型UniPic2-Metaquery后,效果得到了進(jìn)一步的提升。

Skywork UniPic 2.0的項(xiàng)目地址
- 項(xiàng)目主頁(yè):https://unipic-v2.github.io/
- 技術(shù)報(bào)告:https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
- GitHub地址:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
- HuggingFace?Gradio:https://huggingface.co/spaces/Skywork/UniPic2-Metaquery
- HuggingFace Model:
- https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B
- https://huggingface.co/Skywork/UniPic2-Metaquery-9B
?版權(quán)聲明:如無(wú)特殊說(shuō)明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺(tái)。否則,我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。

