
Monkey 是華中科技大學(xué)與金山軟件聯(lián)合推出的一種高性能多模態(tài)大模型,通過提高輸入分辨率和引入多級描述生成方法,解決了現(xiàn)有模型在復(fù)雜場景和視覺細(xì)節(jié)處理方面的挑戰(zhàn)。Monkey 可以基于現(xiàn)有視覺編輯器進行構(gòu)建,無需從0預(yù)訓(xùn)練,大大提高了研發(fā)效率。
Monkey 的多級描述生成方法可以為模型提供豐富的上下文信息,指導(dǎo)模型學(xué)習(xí)場景和對象之間的關(guān)聯(lián)。通過在16個不同的數(shù)據(jù)集上進行測試,Monkey 在圖像字幕、視覺問答、文檔分類等多模態(tài)任務(wù)上取得了出色的成績。Monkey 展現(xiàn)了超強的細(xì)微視覺信息感知和復(fù)雜場景理解能力,具有廣泛的應(yīng)用空間。
- 開源地址:https://github.com/Yuliang-Liu/Monkey
- 論文地址:https://arxiv.org/abs/2311.06607v1
- 在線體驗demo:http://27.17.184.224:7680/

Monkey 的訓(xùn)練數(shù)據(jù)集質(zhì)量是其能力提升的關(guān)鍵,研究人員生成了數(shù)十萬條高質(zhì)量的圖像描述數(shù)據(jù),并利用多個模型自動生成文字描述,并將不同模型的輸出融合起來,提升了大模型對圖像細(xì)節(jié)的理解能力。
在模型選擇方面,Monkey 采用了開源模型 Qwen-VL 作為語言解碼器,以及20億參數(shù)的 ViT-BigHuge 作為視覺編碼器,避免了重復(fù)預(yù)訓(xùn)練的資源浪費。為了提升 Monkey 的識別能力和輸入分辨率,以及生成更豐富的圖像描述和對復(fù)雜場景的理解能力,采用了多級描述生成、高分辨率編碼和多任務(wù)訓(xùn)練三個訓(xùn)練階段。
Monkey 在16個不同的數(shù)據(jù)集上進行了全面驗證,包括圖像字幕、通用視覺問答和文檔導(dǎo)向問答等任務(wù)。在通用視覺問答任務(wù)上,Monkey 在多個數(shù)據(jù)集上都顯示出明顯的優(yōu)勢。在圖像字幕任務(wù)上,Monkey 在 TextCaps 數(shù)據(jù)集上也表現(xiàn)出色,證明了其對圖片中文本元素的多模態(tài)理解能力。

在文檔導(dǎo)向問答任務(wù)上,Monkey 在多個文檔圖像理解數(shù)據(jù)集上取得了不錯的成績。研究人員表示,Monkey 在醫(yī)學(xué)影像、衛(wèi)星圖像等領(lǐng)域具有廣泛的應(yīng)用空間,并將繼續(xù)優(yōu)化 Monkey 模型的感知、聯(lián)想、推理和泛化能力。
綜上所述,Monkey 是一種高性能多模態(tài)大模型,通過提高輸入分辨率和引入多級描述生成方法,解決了復(fù)雜場景和視覺細(xì)節(jié)處理的挑戰(zhàn)。Monkey 無需從0預(yù)訓(xùn)練,可以基于現(xiàn)有視覺編輯器進行構(gòu)建,具有高效率和廣泛的應(yīng)用空間。通過在多個數(shù)據(jù)集上進行測試,Monkey 在多模態(tài)任務(wù)上取得了出色的成績,展現(xiàn)了超強的視覺信息感知和場景理解能力。未來,Monkey 將繼續(xù)優(yōu)化模型的感知、聯(lián)想、推理和泛化能力,進一步提升其在各領(lǐng)域的應(yīng)用價值。
