
Monkey 是華中科技大學與金山軟件聯合推出的一種高性能多模態大模型,通過提高輸入分辨率和引入多級描述生成方法,解決了現有模型在復雜場景和視覺細節處理方面的挑戰。Monkey 可以基于現有視覺編輯器進行構建,無需從0預訓練,大大提高了研發效率。
Monkey 的多級描述生成方法可以為模型提供豐富的上下文信息,指導模型學習場景和對象之間的關聯。通過在16個不同的數據集上進行測試,Monkey 在圖像字幕、視覺問答、文檔分類等多模態任務上取得了出色的成績。Monkey 展現了超強的細微視覺信息感知和復雜場景理解能力,具有廣泛的應用空間。
- 開源地址:https://github.com/Yuliang-Liu/Monkey
- 論文地址:https://arxiv.org/abs/2311.06607v1
- 在線體驗demo:http://27.17.184.224:7680/

Monkey 的訓練數據集質量是其能力提升的關鍵,研究人員生成了數十萬條高質量的圖像描述數據,并利用多個模型自動生成文字描述,并將不同模型的輸出融合起來,提升了大模型對圖像細節的理解能力。
在模型選擇方面,Monkey 采用了開源模型 Qwen-VL 作為語言解碼器,以及20億參數的 ViT-BigHuge 作為視覺編碼器,避免了重復預訓練的資源浪費。為了提升 Monkey 的識別能力和輸入分辨率,以及生成更豐富的圖像描述和對復雜場景的理解能力,采用了多級描述生成、高分辨率編碼和多任務訓練三個訓練階段。
Monkey 在16個不同的數據集上進行了全面驗證,包括圖像字幕、通用視覺問答和文檔導向問答等任務。在通用視覺問答任務上,Monkey 在多個數據集上都顯示出明顯的優勢。在圖像字幕任務上,Monkey 在 TextCaps 數據集上也表現出色,證明了其對圖片中文本元素的多模態理解能力。

在文檔導向問答任務上,Monkey 在多個文檔圖像理解數據集上取得了不錯的成績。研究人員表示,Monkey 在醫學影像、衛星圖像等領域具有廣泛的應用空間,并將繼續優化 Monkey 模型的感知、聯想、推理和泛化能力。
綜上所述,Monkey 是一種高性能多模態大模型,通過提高輸入分辨率和引入多級描述生成方法,解決了復雜場景和視覺細節處理的挑戰。Monkey 無需從0預訓練,可以基于現有視覺編輯器進行構建,具有高效率和廣泛的應用空間。通過在多個數據集上進行測試,Monkey 在多模態任務上取得了出色的成績,展現了超強的視覺信息感知和場景理解能力。未來,Monkey 將繼續優化模型的感知、聯想、推理和泛化能力,進一步提升其在各領域的應用價值。
