CogAgent-9B：智譜AI推出的專用于Agent任務的開源基座模型

AI訓練模型
24年12月26日
編輯

AIHubAI布道師

CogAgent-9B 是什么？

CogAgent-9B是由智譜AI最新推出的開源的 GLM-PC 基座模型，基于 GLM-4V-9B 訓練而成的專用Agent任務模型。該模型僅需屏幕截圖作為輸入（無需HTML等文本表征），便能根據用戶指定的任意任務，結合歷史操作，預測下一步的GUI操作。得益于屏幕截圖和GUI操作的普適性，CogAgent 可廣泛應用于各類基于GUI交互的場景，如個人電腦、手機、車機設備等。　

相較于2023年12月開源的第一版 CogAgent 模型，CogAgent-9B-20241220 在 GUI 感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現了顯著提升，并支持中英文雙語的屏幕截圖和語言交互。　

CogAgent-9B的核心特點

創新輸入方式： 僅通過屏幕截圖作為輸入，不需要任何布局信息或附加元素標簽。通過分析截圖和歷史動作，CogAgent-9B能夠高效預測下一步的操作。
雙語支持： 不僅支持中文和英文的操作界面交互，還能夠識別并理解雙語屏幕截圖，滿足全球用戶的需求。
強大的視覺理解： 基于GLM-4V-9B視覺語言模型，CogAgent-9B具有超強的圖像理解能力，能夠精確解析圖形界面的每個細節，確保預測結果的準確性。
廣泛適用性： 從個人電腦到手機、車機等多平臺設備，CogAgent-9B能在不同設備上執行復雜的GUI任務，適用于各種工作流和應用場景。
高效性與精確性： 通過優化的視覺處理模塊和高效的輸入圖像處理方法，CogAgent-9B能夠在保證精度的同時，提升任務執行速度。
靈活的任務執行： 支持從基礎操作（如點擊、輸入）到高級動作（如啟動應用、調用語言模型等）的多種任務執行。通過結構化的自然語言描述和函數調用形式，確保動作執行準確無誤。

CogAgent-9B 的評測結果

CogAgent-9B 在多個關鍵性能指標上表現出色，尤其是在 GUI 定位（Screenspot）、單步操作（OmniAct）和中文 step-wise 榜單（CogAgentBench-basic-cn）等方面均取得了領先的成績。盡管在某些多步操作任務（如 OSWorld）中，CogAgent-9B略遜色于針對計算機使用優化的 Claude-3.5-Sonnet 和結合外接 GUI Grounding 的 GPT-4o，但整體性能仍然非常強勁。