欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

即夢AI
當前位置:首頁>AI模型>CogAgent-9B:智譜AI推出的專用于Agent任務的開源基座模型

CogAgent-9B:智譜AI推出的專用于Agent任務的開源基座模型

CogAgent-9B 是什么?

CogAgent-9B是由智譜AI最新推出的開源的 GLM-PC 基座模型,基于 GLM-4V-9B 訓練而成的專用Agent任務模型。該模型僅需屏幕截圖作為輸入(無需HTML等文本表征),便能根據用戶指定的任意任務,結合歷史操作,預測下一步的GUI操作。得益于屏幕截圖和GUI操作的普適性,CogAgent 可廣泛應用于各類基于GUI交互的場景,如個人電腦、手機、車機設備等。 

相較于2023年12月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現了顯著提升,并支持中英文雙語的屏幕截圖和語言交互。 

CogAgent-9B:智譜AI推出的專用于Agent任務的開源基座模型

CogAgent-9B核心特點

  • 創新輸入方式: 僅通過屏幕截圖作為輸入,不需要任何布局信息或附加元素標簽。通過分析截圖和歷史動作,CogAgent-9B能夠高效預測下一步的操作。
  • 雙語支持: 不僅支持中文和英文的操作界面交互,還能夠識別并理解雙語屏幕截圖,滿足全球用戶的需求。
  • 強大的視覺理解: 基于GLM-4V-9B視覺語言模型,CogAgent-9B具有超強的圖像理解能力,能夠精確解析圖形界面的每個細節,確保預測結果的準確性。
  • 廣泛適用性: 從個人電腦到手機、車機等多平臺設備,CogAgent-9B能在不同設備上執行復雜的GUI任務,適用于各種工作流和應用場景。
  • 高效性與精確性: 通過優化的視覺處理模塊和高效的輸入圖像處理方法,CogAgent-9B能夠在保證精度的同時,提升任務執行速度。
  • 靈活的任務執行: 支持從基礎操作(如點擊、輸入)到高級動作(如啟動應用、調用語言模型等)的多種任務執行。通過結構化的自然語言描述和函數調用形式,確保動作執行準確無誤。

CogAgent-9B 的評測結果

CogAgent-9B 在多個關鍵性能指標上表現出色,尤其是在 GUI 定位(Screenspot)、單步操作(OmniAct)和中文 step-wise 榜單(CogAgentBench-basic-cn)等方面均取得了領先的成績。盡管在某些多步操作任務(如 OSWorld)中,CogAgent-9B略遜色于針對計算機使用優化的 Claude-3.5-Sonnet 和結合外接 GUI Grounding 的 GPT-4o,但整體性能仍然非常強勁。

CogAgent-9B:智譜AI推出的專用于Agent任務的開源基座模型

CogAgent-9B適用場景

  • 個人計算機操作: 自動化辦公流程、應用程序操作、系統設置等。
  • 智能手機交互: 支持多任務處理、應用管理、文件瀏覽等操作。
  • 車載設備: 實現車載系統中信息娛樂、導航和智能助手等多種操作。
  • 智能家居設備: 管理智能家居系統、控制設備、設定自動化任務等。

CogAgent-9B相關資源

  1. 論文: https://arxiv.org/abs/2312.08914
  2. 代碼: https://github.com/THUDM/CogAgent
  3. 技術文檔:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
  4. 模型: 
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。 Trae
主站蜘蛛池模板: 新民市| 泾源县| 陵川县| 漳浦县| 贵港市| 美姑县| 临泽县| 安庆市| 闽侯县| 通化市| 花莲市| 重庆市| 宜兰县| 新乡市| 杨浦区| 酉阳| 习水县| 德安县| 渭南市| 远安县| 探索| 仁化县| 怀安县| 洛阳市| 三台县| 白城市| 枝江市| 祁东县| 日土县| 镇巴县| 托克托县| 萨迦县| 略阳县| 皋兰县| 和平县| 南丰县| 绥化市| 南陵县| 新绛县| 吴堡县| 河池市|