CogAgent-9B 是什么?
CogAgent-9B是由智譜AI最新推出的開源的 GLM-PC 基座模型,基于 GLM-4V-9B 訓練而成的專用Agent任務模型。該模型僅需屏幕截圖作為輸入(無需HTML等文本表征),便能根據用戶指定的任意任務,結合歷史操作,預測下一步的GUI操作。得益于屏幕截圖和GUI操作的普適性,CogAgent 可廣泛應用于各類基于GUI交互的場景,如個人電腦、手機、車機設備等。
相較于2023年12月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現了顯著提升,并支持中英文雙語的屏幕截圖和語言交互。

CogAgent-9B的核心特點
- 創新輸入方式: 僅通過屏幕截圖作為輸入,不需要任何布局信息或附加元素標簽。通過分析截圖和歷史動作,CogAgent-9B能夠高效預測下一步的操作。
- 雙語支持: 不僅支持中文和英文的操作界面交互,還能夠識別并理解雙語屏幕截圖,滿足全球用戶的需求。
- 強大的視覺理解: 基于GLM-4V-9B視覺語言模型,CogAgent-9B具有超強的圖像理解能力,能夠精確解析圖形界面的每個細節,確保預測結果的準確性。
- 廣泛適用性: 從個人電腦到手機、車機等多平臺設備,CogAgent-9B能在不同設備上執行復雜的GUI任務,適用于各種工作流和應用場景。
- 高效性與精確性: 通過優化的視覺處理模塊和高效的輸入圖像處理方法,CogAgent-9B能夠在保證精度的同時,提升任務執行速度。
- 靈活的任務執行: 支持從基礎操作(如點擊、輸入)到高級動作(如啟動應用、調用語言模型等)的多種任務執行。通過結構化的自然語言描述和函數調用形式,確保動作執行準確無誤。
CogAgent-9B 的評測結果
CogAgent-9B 在多個關鍵性能指標上表現出色,尤其是在 GUI 定位(Screenspot)、單步操作(OmniAct)和中文 step-wise 榜單(CogAgentBench-basic-cn)等方面均取得了領先的成績。盡管在某些多步操作任務(如 OSWorld)中,CogAgent-9B略遜色于針對計算機使用優化的 Claude-3.5-Sonnet 和結合外接 GUI Grounding 的 GPT-4o,但整體性能仍然非常強勁。

CogAgent-9B的適用場景
- 個人計算機操作: 自動化辦公流程、應用程序操作、系統設置等。
- 智能手機交互: 支持多任務處理、應用管理、文件瀏覽等操作。
- 車載設備: 實現車載系統中信息娛樂、導航和智能助手等多種操作。
- 智能家居設備: 管理智能家居系統、控制設備、設定自動化任務等。
CogAgent-9B相關資源
- 論文: https://arxiv.org/abs/2312.08914
- 代碼: https://github.com/THUDM/CogAgent
- 技術文檔:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
- 模型:
