Janus-Pro：DeepSeek推出的開源AI模型，支持圖像理解和圖像生成

AIHubAI布道師

Janus-Pro是什么？

Janus-Pro是由DeepSeek推出的開源大一統(tǒng)模型，支持圖像理解和圖像生成，提供 1B 和 7B 兩種規(guī)模，適配多元應用場景。它通過改進的訓練策略、擴展的數(shù)據(jù)集和更大規(guī)模的模型，顯著提升了文本到圖像的生成能力和指令跟隨性能。Janus-Pro采用解耦的視覺編碼路徑，提升了多模態(tài)任務的靈活性，且在圖像生成任務中表現(xiàn)出較高的穩(wěn)定性和精準度，成為一個強大的統(tǒng)一多模態(tài)模型。

Janus-Pro全面開源，支持商用，MIT協(xié)議。

Janus-Pro：DeepSeek推出的開源AI模型，支持圖像理解和圖像生成 — 圖像理解

Janus-Pro的功能特性

1. 多模態(tài)理解與生成：

圖像理解與圖像生成：Janus-Pro支持從文本生成圖像（文本到圖像），并能理解和處理圖像內(nèi)容。它能夠根據(jù)文本描述生成符合要求的圖像，同時也能對圖像進行解析并生成相關的文本或標簽。

2. 開源與大規(guī)模模型：

Janus-Pro是開源的，提供了多個版本的模型（如1B和7B），使得開發(fā)者和研究人員能夠自由使用并進行二次開發(fā)。其大規(guī)模的模型結構和豐富的訓練數(shù)據(jù)使其在多個任務中表現(xiàn)優(yōu)秀。

3. 改進的訓練策略與數(shù)據(jù)集：

通過改進的訓練策略，Janus-Pro在多模態(tài)任務中表現(xiàn)更加穩(wěn)定和高效。它采用了大規(guī)模的訓練數(shù)據(jù)集，覆蓋了更廣泛的場景，從而提升了模型的理解能力和生成質(zhì)量。

4. 解耦視覺編碼路徑：

視覺編碼解耦是Janus-Pro的一大特色，它通過將視覺信息和文本信息的編碼路徑解耦，避免了視覺和語言信息處理中的沖突，從而提高了模型的靈活性和擴展性，使其能夠更好地處理復雜的多模態(tài)任務。

5. 圖像到文本的指令跟隨：

在圖像到文本的指令跟隨任務中，Janus-Pro能夠根據(jù)圖像內(nèi)容生成相關的文本描述，或者按照指令執(zhí)行任務。例如，根據(jù)一張圖像生成相應的文本描述，或根據(jù)指令對圖像進行處理。

6. 高效的圖像生成能力：

Janus-Pro在文本到圖像的生成任務中表現(xiàn)出色，能夠根據(jù)輸入的文本描述生成高質(zhì)量的圖像。其生成的圖像具有較高的真實性和細節(jié)，能夠滿足復雜的需求。

7. 多任務學習與推理：

Janus-Pro支持多任務學習，可以同時處理多種任務，如圖像生成、圖像理解、跨模態(tài)推理等。它的推理能力非常強大，能夠在多個領域和任務中提供準確的結果。

Janus-Pro的性能表現(xiàn)

1. 多模態(tài)理解性能

在MMBench（多模態(tài)理解基準測試）中，Janus-Pro-7B達到了79.2的分數(shù)，超越了其他統(tǒng)一多模態(tài)模型，如Janus（69.4）、TokenFlow（68.9）以及MetaMorph（75.2）。
這一分數(shù)表明Janus-Pro在理解圖像內(nèi)容并將其映射到適當?shù)恼Z言或文本任務中表現(xiàn)極為出色。

2. 文本到圖像指令跟蹤

Janus-Pro-7B在GenEval（文本到圖像生成指令跟蹤）基準中，得到了0.80的分數(shù)，超過了Janus（0.61）、DALL-E 3（0.67）和Stable Diffusion 3 Medium（0.74）。
Janus-Pro的整體準確率達到80%，這比其他模型如Transfusion（63%）、SD3-Medium（74%）和DALL-E 3（67%）高出很多，表明它在執(zhí)行復雜指令和生成精準圖像方面的能力更強。