2025年6月26日,阿里巴巴達摩院通義千問團隊正式發布其最新多模態模型 —— Qwen VLo,標志著通義在圖文理解與生成能力上的重大突破,實現了從“看懂”世界到“描繪”世界的跨越式提升。

Qwen VLo 是一款統一的視覺-語言模型,具備圖文雙向交互能力,不僅能理解圖像內容,還可根據自然語言指令進行高質量圖像生成與編輯。模型支持風格遷移、背景更換、物體添加等復雜視覺操作,同時具備視覺感知任務能力,如圖像分割、邊緣檢測等,是目前極具實用性和通用性的多模態模型之一。
與傳統圖像生成技術不同,Qwen VLo 采用漸進式生成機制,圖像逐行生成,更利于用戶在過程中進行精細控制。此外,它支持任意分辨率圖像輸入輸出,以及中英文多語言交互,廣泛適用于插畫創作、廣告設計、教育圖解、影視分鏡等場景。
目前,Qwen VLo 已在通義官網上線預覽體驗。通義團隊表示,未來將持續優化模型能力,推動多模態AI在創意設計、視覺交互、科研教育等領域的深入應用。
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。

