Nova Act是什么?
Nova Act 是由 Amazon AGI Lab(通用人工智能實驗室)推出的首個通用 AI 智能體產(chǎn)品,具備自動操控網(wǎng)頁瀏覽器的能力。它能夠理解自然語言任務(wù)描述,自主執(zhí)行真實網(wǎng)頁上的一系列操作,如點擊、填寫表單、選擇日期、提交內(nèi)容等。Nova Act 是 Amazon 在 Agent 方向邁出的關(guān)鍵一步,旨在賦予 AI 系統(tǒng)“像人一樣使用電腦”的執(zhí)行能力。
該項目由兩位前 OpenAI、深度強化學(xué)習(xí)領(lǐng)域?qū)<?David Luan 與 Pieter Abbeel 領(lǐng)導(dǎo)開發(fā),當(dāng)前以研究預(yù)覽形式對開發(fā)者開放,配套提供了 Nova Act SDK。

Nova Act的主要功能
- 網(wǎng)頁級任務(wù)自動執(zhí)行:支持真實網(wǎng)頁中的點擊、拖動、輸入、確認(rèn)、取消等基本操作,實現(xiàn)完整任務(wù)鏈條的自動執(zhí)行。
- 自然語言任務(wù)理解:用戶可通過自然語言描述任務(wù)目標(biāo),系統(tǒng)自動將其轉(zhuǎn)化為頁面操作流程。
- 技能鏈與步驟拆解:Agent 內(nèi)部將復(fù)雜目標(biāo)拆分為子任務(wù),每步都以“技能塊”方式執(zhí)行,可中途干預(yù)或調(diào)整。
- Playwright 深度集成:基于無頭瀏覽器 Playwright 執(zhí)行任務(wù),具備極高穩(wěn)定性與真實兼容性。
- 多樣工作流控制:支持開發(fā)者指定哪些操作由 AI 執(zhí)行,哪些需人工確認(rèn),增強任務(wù)可控性。
- 性能領(lǐng)先基準(zhǔn):在 Amazon 內(nèi)部的網(wǎng)頁操作任務(wù)測試中,Nova Act 在文本交互能力上得分高達 94%,領(lǐng)先 OpenAI 和 Anthropic 的 Agent。
Nova Act的技術(shù)亮點
- 架構(gòu)融合大語言模型與環(huán)境感知:Nova Act 架構(gòu)中,語言模型負責(zé)理解任務(wù)與表達,環(huán)境模型負責(zé)執(zhí)行與觀察狀態(tài)變化。
- 人類級操作建模:不使用 API 接口調(diào)用網(wǎng)頁,而是模擬鼠標(biāo)點擊、輸入框定位等真實用戶行為。
- 研究級任務(wù)驗證基準(zhǔn):使用自研“ScreenSpot WebText”任務(wù)測試 Agent 的操作穩(wěn)定性、語言理解與任務(wù)完成度,精準(zhǔn)量化 Agent 能力。
- 逐步通往 AGI 的技術(shù)路線:將網(wǎng)頁操作作為“通用 Agent 能力驗證場”,構(gòu)建“能在計算機上完成所有任務(wù)”的 AI 原型。
Nova Act的適用場景
- 網(wǎng)頁交互自動化:在線購物、訂餐、填寫調(diào)查、預(yù)約系統(tǒng)等用戶常見操作流程。
- 語音助手增強模塊:作為 Alexa+ 的執(zhí)行引擎,實現(xiàn)從語音意圖到網(wǎng)頁行為的完整鏈路。
- 企業(yè)級輕量 RPA 替代方案:用于 HR、財務(wù)、IT 部門的網(wǎng)頁重復(fù)流程自動化。
- 智能體產(chǎn)品原型開發(fā):適合 AI 產(chǎn)品開發(fā)者構(gòu)建網(wǎng)頁執(zhí)行類助手工具。
- Agent 能力研究與評測:為高校、機構(gòu)、研究者提供 Agent 基準(zhǔn)研究樣本和實驗平臺。
如何使用Nova Act?
- 訪問平臺入口:前往 nova.amazon.com 注冊并查看技術(shù)文檔與案例。
- 下載 Nova Act SDK:獲取開發(fā)工具包并了解 Agent 任務(wù)定義結(jié)構(gòu)。
- 創(chuàng)建任務(wù)描述腳本:通過 YAML/JSON 等格式定義任務(wù)目標(biāo)、每步技能塊、參數(shù)限制與 UI 元素定位方式。
- 運行無頭瀏覽器執(zhí)行任務(wù):本地模擬或部署 Agent 行為,支持無界面后臺運行。
- 調(diào)試與迭代:通過測試集或真實任務(wù)運行日志優(yōu)化 Agent 流程,提升魯棒性與成功率。
