全部標簽

多模態大模型

Qwen VLo - 阿里推出的多模態統一理解與生成模型

Qwen VLo 是通義千問團隊推出的多模態統一理解與生成模型，具備強大的圖文雙向交互能力。它不僅能精準理解圖像內容，還能根據自然語言指令進行高質量的圖像生成與編輯，支持風格遷移、背景更換、物體添加等多種操作
AI模型
- 2.2k
- 0
AIHub6月28日
GPT-4.1：OpenAI 推出的新一代語言模型，支持百萬上下文

GPT-4.1 是 OpenAI 推出的新一代語言模型，包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個版本。它在編碼能力、指令遵循和長文本處理等方面有顯著提升，支持高達 100 萬個 token 的上下文窗口。
AI模型
- 2.6k
- 0
AIHub4月15日
Monkey：華中科技大學開源的多模態大模型

Monkey 是華中科技大學與金山軟件聯合推出的一種高性能多模態大模型，通過提高輸入分辨率和引入多級描述生成方法，解決了現有模型在復雜場景和視覺細節處理方面的挑戰。Monkey 可以基于現有視覺編輯器進行構建，無需從0預訓練，大大提高了研發效率。
AI模型
- 10.3k
- 0
AIHub23年12月10日
Gemini-谷歌發布的多模態AI大模型

AIHub 12 月 6 日消息，谷歌宣布推出其認為規模最大、功能最強大的人工智能多模態AI模型 Gemini。意味著它可以理解、操作和結合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。
AI模型
- 31.6k
- 0
AIHub23年12月6日
NExT-GPT：開源全能多模態AI大模型

新加坡國立大學的華人團隊最近開源了全能多模態模型NExT-GPT。該模型支持任意模態的輸入和輸出，可以實現文本、圖像、語音和視頻之間的自由轉換，是第一個實現從任一模態到任一模態轉換的通用多模態系統。
AI模型
- 4.8k
- 0
AIHub23年9月18日
CoDi-多模態 AI 大模型

CoDi 是一個新穎的生成模型，能夠從任何組合的輸入模態生成任何組合的輸出模態
AI模型
- 6k
- 0
AIHub23年6月26日
Meta-ImageBind開源多模態AI大模型

ImageBind能夠將多種數據流，包括文本、音頻、視覺數據、溫度和運動讀數等整合在一起。
AI模型
- 4.8k
- 0
AIHub23年5月10日