繼各類單一模態輸入的多模態語言模型后,新加坡國立大學的華人團隊最近開源了全能多模態模型NExT-GPT。該模型支持任意模態的輸入和輸出,可以實現文本、圖像、語音和視頻之間的自由轉換,是第一個實現從任一模態到任一模態轉換的通用多模態系統。

項目地址:https://next-gpt.github.io
代碼地址:https://github.com/NExT-GPT/NExT-GPT
論文地址:https://arxiv.org/abs/2309.05519
NExT-GPT的優勢在于它實現了真正意義上的任意模態輸入到任意模態輸出,而不是僅僅支持某一種固定的輸入輸出模式。用戶可以隨意組合不同模態進行查詢,NExT-GPT都可以進行理解并用請求的模態形式給出響應。這充分模擬了人類處理信息的能力,是向通用人工智能目標邁進的重要一步。

在技術上,NExT-GPT并沒有創新算法,而是站在巨人的肩膀上,通過組合優化利用現有的各類開源模塊實現全能目標。具體來說,模型包含三個層次:第一,使用各類模態編碼器對輸入進行編碼;第二,語言模型負責復雜推理;第三,解碼器生成各種模態輸出。

NExT-GPT的獨特之處在于實現了模態特征表達的端到端對齊訓練,以及針對多模態輸出做了指令微調。這保證了在輸入理解、內部推理和輸出生成各層次間特征的有效傳遞,從而實現了優秀的多模態理解與生成能力。
雖然NExT-GPT目前還有待進一步擴展,但其展示了構建通用多模態系統的可能性,為人工智能研究提供了寶貴的借鑒。后續工作可以考慮擴展更多模態,使用更大規模的語言模型基座,以及改進多模態生成策略等。
