Janus-Pro是什么?
Janus-Pro是由DeepSeek推出的開源大一統(tǒng)模型,支持圖像理解和圖像生成,提供 1B 和 7B 兩種規(guī)模,適配多元應用場景。它通過改進的訓練策略、擴展的數(shù)據(jù)集和更大規(guī)模的模型,顯著提升了文本到圖像的生成能力和指令跟隨性能。Janus-Pro采用解耦的視覺編碼路徑,提升了多模態(tài)任務的靈活性,且在圖像生成任務中表現(xiàn)出較高的穩(wěn)定性和精準度,成為一個強大的統(tǒng)一多模態(tài)模型。
Janus-Pro全面開源,支持商用,MIT協(xié)議。


Janus-Pro的功能特性
1. 多模態(tài)理解與生成:
- 圖像理解與圖像生成:Janus-Pro支持從文本生成圖像(文本到圖像),并能理解和處理圖像內(nèi)容。它能夠根據(jù)文本描述生成符合要求的圖像,同時也能對圖像進行解析并生成相關的文本或標簽。
2. 開源與大規(guī)模模型:
- Janus-Pro是開源的,提供了多個版本的模型(如1B和7B),使得開發(fā)者和研究人員能夠自由使用并進行二次開發(fā)。其大規(guī)模的模型結構和豐富的訓練數(shù)據(jù)使其在多個任務中表現(xiàn)優(yōu)秀。
3. 改進的訓練策略與數(shù)據(jù)集:
- 通過改進的訓練策略,Janus-Pro在多模態(tài)任務中表現(xiàn)更加穩(wěn)定和高效。它采用了大規(guī)模的訓練數(shù)據(jù)集,覆蓋了更廣泛的場景,從而提升了模型的理解能力和生成質(zhì)量。
4. 解耦視覺編碼路徑:
- 視覺編碼解耦是Janus-Pro的一大特色,它通過將視覺信息和文本信息的編碼路徑解耦,避免了視覺和語言信息處理中的沖突,從而提高了模型的靈活性和擴展性,使其能夠更好地處理復雜的多模態(tài)任務。
5. 圖像到文本的指令跟隨:
- 在圖像到文本的指令跟隨任務中,Janus-Pro能夠根據(jù)圖像內(nèi)容生成相關的文本描述,或者按照指令執(zhí)行任務。例如,根據(jù)一張圖像生成相應的文本描述,或根據(jù)指令對圖像進行處理。
6. 高效的圖像生成能力:
- Janus-Pro在文本到圖像的生成任務中表現(xiàn)出色,能夠根據(jù)輸入的文本描述生成高質(zhì)量的圖像。其生成的圖像具有較高的真實性和細節(jié),能夠滿足復雜的需求。
7. 多任務學習與推理:
- Janus-Pro支持多任務學習,可以同時處理多種任務,如圖像生成、圖像理解、跨模態(tài)推理等。它的推理能力非常強大,能夠在多個領域和任務中提供準確的結果。
Janus-Pro的性能表現(xiàn)
1. 多模態(tài)理解性能
- 在MMBench(多模態(tài)理解基準測試)中,Janus-Pro-7B達到了79.2的分數(shù),超越了其他統(tǒng)一多模態(tài)模型,如Janus(69.4)、TokenFlow(68.9)以及MetaMorph(75.2)。
- 這一分數(shù)表明Janus-Pro在理解圖像內(nèi)容并將其映射到適當?shù)恼Z言或文本任務中表現(xiàn)極為出色。
2. 文本到圖像指令跟蹤
- Janus-Pro-7B在GenEval(文本到圖像生成指令跟蹤)基準中,得到了0.80的分數(shù),超過了Janus(0.61)、DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)。
- Janus-Pro的整體準確率達到80%,這比其他模型如Transfusion(63%)、SD3-Medium(74%)和DALL-E 3(67%)高出很多,表明它在執(zhí)行復雜指令和生成精準圖像方面的能力更強。
3. 文本到圖像生成的性能
- Janus-Pro-7B在DPG-Bench(文本到圖像生成的指令執(zhí)行)基準中獲得了84.19的分數(shù),超越了所有其他競品。
- 這表明,Janus-Pro不僅能夠理解復雜的文本指令,還能根據(jù)這些指令生成高質(zhì)量、符合要求的圖像。

如何使用Janus-Pro?
Janus-Pro全面開源,支持商用,MIT協(xié)議:
- 在線體驗:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
- 技術報告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
- GitHub代碼:https://github.com/deepseek-ai/Janus
- 模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B
- 模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B
?版權聲明:如無特殊說明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
