AIHub最新消息,2024年12月25日,阿里云通義千問正式發布全球首個開源多模態推理模型 QVQ-72B-Preview。該模型以超強的視覺理解與推理能力引領行業,特別在解決數學、物理和科學等復雜問題上表現尤為出色。目前,開發者可通過 魔搭社區 和 HuggingFace 平臺 直接體驗。

核心技術亮點:
- 視覺推理能力突破:
- QVQ 基于 Qwen2-VL-72B 模型優化,支持逐步推理與深度視覺分析,顯著提升復雜問題的解答能力。
- 模型能夠精準感知視覺內容,對圖片進行詳細的推理,如物體高度估算、數量推斷,以及“梗圖”內涵的識別。
- 卓越的評測表現:
- MMMU(多模態任務理解):得分 70.3,達到大學推理水平。
- MathVista(數學推理):超越 OpenAI o1,展現強大圖形推理能力。
- MathVision 和 OlympiadBench:在多學科廣度和奧賽難度測試中分別超過 Claude 3.5 和 GPT-4o。
- 開源與生態支持:
- QVQ-72B 已開源至 HuggingFace,并受到全球開發者熱烈追捧。
- 截至目前,通義千問的模型衍生數已突破 7.8萬個,成為全球規模最大的 AI 模型群。
QVQ-72B-Preview 是阿里云在 AI 推理領域的又一重磅突破,其強大的視覺推理能力與開放生態為開發者提供了全新工具,加速推動多模態 AI 技術的應用落地。
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
