Kimi-VL是什么?
Kimi-VL 是由月之暗面公司(Moonshot AI)推出的一款開源視覺語言模型(VLM),具備原生分辨率圖像理解、多模態推理和128K長上下文處理能力。其基于輕量化的 MoE 架構語言模型 Moonlight 和自研視覺編碼器 MoonViT,可處理圖像、視頻、圖文混合、屏幕快照等多種多模態輸入場景,支持復雜任務中的高效視覺感知與推理。模型性能在多個 VLM 基準上表現優越,兼具推理深度與執行效率。

Kimi-VL 的功能特性
- 原生多模態輸入支持:可處理圖像、視頻、圖文長文檔、屏幕快照等豐富視覺語言組合。
- 128K 長上下文推理:具備大上下文窗口,在長視頻理解與長文檔摘要中表現優異。
- 高保真視覺感知能力:MoonViT 編碼器保留圖像原始分辨率,提升 OCR、細節感知與圖像理解能力。
- 輕量高效的 MoE 架構:采用 16B 總參數、2.8B 激活參數的 Moonlight 模型,實現推理效率與多模態表達兼得。
- 支持長鏈式思維版本(Kimi-VL-Thinking):通過強化學習激活思維鏈推理(Long CoT),在復雜任務中效果超越部分超大模型。
- 完整開源、易于部署:模型已在 Hugging Face 與 GitHub 完全開源,支持本地運行與二次開發,適合社區研究與產品快速集成。
Kimi-VL 的模型架構
Kimi-VL 的整體架構由三大核心模塊組成:原生分辨率視覺編碼器 MoonViT、橋接視覺與語言的 MLP 投影模塊,以及輕量高效的 MoE 架構語言模型 Moonlight。這三個部分共同構建了一個高性能、長上下文、強視覺理解能力的多模態模型。

1?? MoonViT:支持原生分辨率的視覺編碼器
- 專為 Kimi-VL 設計,具備處理原始分辨率圖像的能力,無需圖像分割或拼接。
- 借鑒 NaViT 的打包方法,將圖像劃分為塊后展平成一維序列,提升編碼效率。
- 與語言模型共享 FlashAttention 支持的變長序列處理能力,保證在處理不同大小圖像時訓練吞吐量不受影響。
2?? MLP Projector:視覺與語言模態的橋接層
- 采用兩層 MLP 模塊連接 MoonViT 與語言模型,實現特征維度對齊。
- 首先通過 像素重排(Pixel Shuffle) 對視覺特征進行 2×2 下采樣,并擴展通道維度。
- 再通過 MLP 將下采樣后的特征投影到與語言模型輸入一致的嵌入維度,確保多模態信息無損融合。
3?? Moonlight:自研 MoE 架構語言模型
- 總參數量 16B,有效激活參數 2.8B,采用混合專家(MoE)機制提升推理效率。
- 初始化自 Moonlight 預訓練中間 checkpoint,已處理 5.2T 純文本數據、支持 8K 上下文。
- 在多模態階段進一步使用 2.3T token 的圖文混合數據進行訓練,顯著增強模型跨模態對齊與長文本理解能力。
Kimi-VL 的適用場景
- 多模態問答系統開發:支持圖文混合、視頻幀、屏幕截圖等多模態輸入,適用于構建具備視覺理解能力的 AI 助手或教育問答系統。
- 長文檔和長視頻理解:憑借 128K 上下文窗口能力,可精準提取、總結和推理超長內容,適用于合同審閱、視頻摘要、研究報告分析等任務。
- OCR 與圖像細節分析:在高分辨率圖像、表格、票據等場景中表現出色,適合金融文檔識別、表單解析、圖像標注等任務。
- 多步驟視覺推理與數學理解:結合圖像信息與鏈式思維能力,可用于圖形題、多圖推理、數學可視化問題等教育或科學研究類場景。
- 智能體控制與屏幕交互:在支持高分辨率屏幕截圖解析的基礎上,適合接入多模態 Agent 系統,執行跨應用控制、UI 元素識別等任務。
如何使用 Kimi-VL
Kimi-VL 為開源模型,支持 Hugging Face 上直接加載模型權重,也支持 GitHub 本地部署。可通過推理 API 或集成進多模態任務鏈中運行。Kimi-VL-Thinking 版本支持推理更深的思維鏈任務,適用于邏輯推理與多步驟復雜問答。
- ArXiv 論文:https://arxiv.org/abs/2504.07491v1
- Github 代碼:https://github.com/MoonshotAI/Kimi-VL
- Hugging Face 模型下載:https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85
