NExT-GPT：開源全能多模態AI大模型

AIHubAI布道師

繼各類單一模態輸入的多模態語言模型后，新加坡國立大學的華人團隊最近開源了全能多模態模型NExT-GPT。該模型支持任意模態的輸入和輸出，可以實現文本、圖像、語音和視頻之間的自由轉換，是第一個實現從任一模態到任一模態轉換的通用多模態系統。

NExT-GPT的優勢在于它實現了真正意義上的任意模態輸入到任意模態輸出，而不是僅僅支持某一種固定的輸入輸出模式。用戶可以隨意組合不同模態進行查詢，NExT-GPT都可以進行理解并用請求的模態形式給出響應。這充分模擬了人類處理信息的能力，是向通用人工智能目標邁進的重要一步。

在技術上，NExT-GPT并沒有創新算法，而是站在巨人的肩膀上，通過組合優化利用現有的各類開源模塊實現全能目標。具體來說，模型包含三個層次:第一，使用各類模態編碼器對輸入進行編碼;第二，語言模型負責復雜推理;第三，解碼器生成各種模態輸出。

NExT-GPT的獨特之處在于實現了模態特征表達的端到端對齊訓練，以及針對多模態輸出做了指令微調。這保證了在輸入理解、內部推理和輸出生成各層次間特征的有效傳遞，從而實現了優秀的多模態理解與生成能力。

雖然NExT-GPT目前還有待進一步擴展，但其展示了構建通用多模態系統的可能性，為人工智能研究提供了寶貴的借鑒。后續工作可以考慮擴展更多模態，使用更大規模的語言模型基座，以及改進多模態生成策略等。

0 條回復 A文章作者 M管理員

更換刪除

暫無評論內容

欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区