浦語(yǔ)靈筆是什么?
上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)近日推出了首個(gè)圖文混合創(chuàng)作大模型書(shū)生·浦語(yǔ)靈筆(InternLM-XComposer),該模型能夠根據(jù)用戶提供的主題或圖片,自動(dòng)創(chuàng)作出圖文并茂的文章,為大模型落地應(yīng)用提供更多可能。
浦語(yǔ)靈筆是基于書(shū)生·浦語(yǔ)大語(yǔ)言模型(InternLM)的多模態(tài)擴(kuò)展,書(shū)生·浦語(yǔ)是上海AI實(shí)驗(yàn)室今年7月以來(lái)陸續(xù)開(kāi)源的7B(InterLM-7B)及20B(InternLM-20B)版本的大語(yǔ)言模型,為業(yè)界提供了完整的大模型研發(fā)與應(yīng)用基座,以及全鏈條工具體系。

項(xiàng)目地址:https://github.com/InternLM/InternLM-XComposer
浦語(yǔ)靈筆能做什么?
浦語(yǔ)靈筆不僅能夠進(jìn)行流利的中英文圖文對(duì)話,準(zhǔn)確理解圖像內(nèi)容,還具備了圖文并茂文章創(chuàng)作的全新能力。
用戶僅需提供主題或圖片,便可一鍵生成涵蓋歷史沿革、主要景點(diǎn)文物介紹等方面的長(zhǎng)篇文章,并在適當(dāng)位置自動(dòng)插入與文字信息對(duì)應(yīng)的圖片。除自動(dòng)配圖能力外,浦語(yǔ)靈筆還提供了配圖推薦和更換功能,根據(jù)用戶實(shí)際需求定制圖文內(nèi)容。
目前,浦語(yǔ)靈筆已支持科普文稿、營(yíng)銷廣告、新聞稿件、影視評(píng)論、生活指南等類型文章的圖文并茂生成,并將逐漸開(kāi)放更多能力,適應(yīng)更多樣化任務(wù)需求。
浦語(yǔ)靈筆為圖文文章創(chuàng)作設(shè)計(jì)了“三步走”的算法流程:
- 首先,根據(jù)用戶輸入的主題或圖片,浦語(yǔ)靈筆利用其強(qiáng)大的寫(xiě)作能力,創(chuàng)作出文采斐然的文章。
- 其次,浦語(yǔ)靈筆自動(dòng)分析文章內(nèi)容和段落布局,規(guī)劃需要插圖圖片的位置,并生成對(duì)圖片內(nèi)容需求的描述。
- 最后,采用從粗篩到精選的配圖策略,利用多模態(tài)大模型強(qiáng)大的圖像理解能力,從海量圖庫(kù)中選擇出最符合文章上下文內(nèi)容和整體圖像風(fēng)格的圖片,完成文章的自動(dòng)配圖。
浦語(yǔ)靈筆出色的圖文創(chuàng)作效果,得益于其多任務(wù)預(yù)訓(xùn)練模型(InternLM-XComposer-VL-7B)強(qiáng)大的多模態(tài)理解能力。
研究人員采用5個(gè)主流的多模態(tài)大模型評(píng)測(cè)對(duì)InternLM-XComposer-VL-7B進(jìn)行了詳細(xì)測(cè)試,包括MME Benchmark、MMBench、MMBench-CN、Seed-Bench和CCBench等中英文評(píng)測(cè)。
評(píng)測(cè)結(jié)果顯示,在上述5項(xiàng)評(píng)測(cè)中,浦語(yǔ)靈筆均體現(xiàn)出卓越性能,尤其是在中國(guó)文化理解方面,表現(xiàn)出深厚的知識(shí)積淀。
如何使用浦語(yǔ)靈筆?
浦語(yǔ)靈筆現(xiàn)已開(kāi)源,同時(shí)上線GitHub、Hugging Face及魔搭社區(qū)(ModelScope),歡迎開(kāi)發(fā)者下載試用。
項(xiàng)目地址:https://github.com/InternLM/InternLM-XComposer
