今天,亚马逊 AGI 实验室宣布开源发布感知智能体工具套件的首批两项基础组件:标注(Annotation)与验证(Verification)。标注功能允许用户直接指出工作流中需要改动的内容,无需再通过文字描述变更需求;验证功能则让智能体能够对照预期目标自主检查其输出结果。两者共同构成了全新的多模态交互模式,旨在提升人机协作效率。
感知智能体的能力边界
感知能力固然重要,但让智能体能够基于所感知的内容采取行动、并支持用户实时反馈的交互模式,才是真正的关键所在。标注与验证这两项基础组件,正是为了将感知能力转化为更高效的人机协作体验而设计的。
标注:让反馈像指点一样自然
当用户与智能体共享同一屏幕视图时,理应能够像与人类同事协作一样,直接指出、圈画并描述所看到的内容,而非依赖打一段话来解释问题所在。
标注组件引入了一种自然的交互方式,以提升输出准确性。在网站或网页上,用户点击某个元素,工具即可自动获取该元素的文档对象模型(DOM)选择器、边界框及计算样式;在文档、图表等视觉界面上,用户可以直接手绘标记:圈出表示"关注这里",划叉表示"删除此处",箭头表示"移动到这里"。用户得以精准传达自己所看到的内容。
使用方式:用户可通过浏览器扩展程序或直接调用 Nova Act Annotator 技能进行标注。在浏览页面时打开扩展程序,选择模式(绘图、元素或点选),对需要修改的内容进行标记。标注结果将保存为结构化产物,作为智能体的输入,智能体可据此精准执行后续操作。
协作设计:标注功能并不局限于用户与智能体之间的一对一循环。任何人都可以参与标注——设计师可以圈出布局问题,质量工程师可以记录异常流程,并将这份结构化反馈发送给后续迭代的执行方,无论是智能体还是团队中的其他开发者。反馈本身即成为上下文,无需再将意见转化为可能丢失细节的文字消息或工单。
Nova Act Annotator(技能 + Chrome 扩展)今日正式开源。
验证:让生成与校验形成闭环
长期以来,生成与验证被视为两个独立环节:先构建软件,再进行测试。这种分离在构建成本高昂、周期漫长的时代自有其合理性。
然而,借助大语言模型,生成过程如今几乎可以瞬间完成。但验证环节——确认输出结果是否真正符合预期——依然全靠人工,耗时且低效。这正是"氛围编程"(Vibe Coding)的悖论所在:60 秒内生成一个完整应用,接下来却要花三个小时验证它是否真的能正常运行。
共享感知能力打破了这一壁垒。当人类与智能体能够观察同一视觉输出并各自推理其内容时,生成与验证就可以形成一个持续循环,无需反复的人工中间干预。智能体可以像人工审查者一样看到自己构建的成果,感知按钮错位或移动端布局错乱等问题。
工作原理:智能体在代码生成完成后调用 Nova Act Visual Verifier 技能,该技能启动渲染后的应用程序并自动执行验证流程。首先运行确定性检查,直接从 DOM 中读取计算后的 CSS 样式,无需 AI 介入即可即时捕获视觉偏差;随后执行行为检查,智能体以人类测试者的方式端到端地走完用户操作流程,捕捉功能性回归问题。
生成与验证相结合的方式,帮助亚马逊团队在内部构建了精度更高的 Web 应用。事实上,标注扩展程序本身及团队的内部工具,也均是借助这套工具构建完成的。
Nova Act Visual Verifier 技能今日正式开源。
开放共建,持续演进
标注与验证是亚马逊 AGI 实验室团队在实践中验证有效的两项基础组件。团队选择以开放方式构建感知智能体工具套件,正是因为这类交互模式会随着更多人的使用、压力测试和二次开发而不断完善。
欢迎立即体验,并告知还缺少哪些功能。接下来该优先构建哪些基础组件,团队希望与社区共同探讨决定。
Q&A
Q1:感知智能体的标注功能具体是怎么用的?
A:用户可通过 Nova Act Annotator 的浏览器扩展程序或直接调用对应技能来使用标注功能。在浏览网页时打开扩展,选择绘图、元素或点选模式,对需要修改的地方进行标记。在网页上点击元素,工具会自动捕获其 DOM 选择器、边界框和计算样式;在文档或图表等视觉界面上,则可以手绘圈注、划叉或箭头,直观传达修改意图。标注结果保存为结构化产物,智能体可据此精准执行操作,无需再用文字反复描述。
Q2:Nova Act Visual Verifier 是如何自动验证应用输出的?
A:智能体在生成代码后调用 Nova Act Visual Verifier 技能,该技能会启动渲染后的应用并自动运行两类检查:首先是确定性检查,直接读取 DOM 中的 CSS 计算样式,无需 AI 参与即可即时发现视觉偏差;然后是行为检查,智能体模拟真实用户操作,端到端走完完整的用户流程,捕捉功能性回归问题。两类检查组合使用,使生成与验证形成连续闭环,大幅减少人工干预。
Q3:感知智能体工具套件的标注功能支持多人协作吗?
A:支持。标注功能并不限于用户与智能体之间的一对一交互,而是面向团队协作设计的。设计师可以圈出布局问题,质量工程师可以标记异常操作流程,生成的结构化标注文件可以直接发送给智能体或其他开发人员。这样一来,反馈本身就携带了完整上下文,不再需要将问题转化为文字消息或工单,从而避免信息在传递过程中丢失。