亚马逊开源感知智能体工具：标注与验证功能正式发布_linux资讯

亚马逊开源感知智能体工具：标注与验证功能正式发布

创始人

2026-06-20 18:24:17

0次

今天，亚马逊 AGI 实验室宣布开源发布感知智能体工具套件的首批两项基础组件：标注（Annotation）与验证（Verification）。标注功能允许用户直接指出工作流中需要改动的内容，无需再通过文字描述变更需求；验证功能则让智能体能够对照预期目标自主检查其输出结果。两者共同构成了全新的多模态交互模式，旨在提升人机协作效率。

感知智能体的能力边界

感知能力固然重要，但让智能体能够基于所感知的内容采取行动、并支持用户实时反馈的交互模式，才是真正的关键所在。标注与验证这两项基础组件，正是为了将感知能力转化为更高效的人机协作体验而设计的。

标注：让反馈像指点一样自然

当用户与智能体共享同一屏幕视图时，理应能够像与人类同事协作一样，直接指出、圈画并描述所看到的内容，而非依赖打一段话来解释问题所在。

标注组件引入了一种自然的交互方式，以提升输出准确性。在网站或网页上，用户点击某个元素，工具即可自动获取该元素的文档对象模型（DOM）选择器、边界框及计算样式；在文档、图表等视觉界面上，用户可以直接手绘标记：圈出表示"关注这里"，划叉表示"删除此处"，箭头表示"移动到这里"。用户得以精准传达自己所看到的内容。

使用方式：用户可通过浏览器扩展程序或直接调用 Nova Act Annotator 技能进行标注。在浏览页面时打开扩展程序，选择模式（绘图、元素或点选），对需要修改的内容进行标记。标注结果将保存为结构化产物，作为智能体的输入，智能体可据此精准执行后续操作。

协作设计：标注功能并不局限于用户与智能体之间的一对一循环。任何人都可以参与标注——设计师可以圈出布局问题，质量工程师可以记录异常流程，并将这份结构化反馈发送给后续迭代的执行方，无论是智能体还是团队中的其他开发者。反馈本身即成为上下文，无需再将意见转化为可能丢失细节的文字消息或工单。

Nova Act Annotator（技能 + Chrome 扩展）今日正式开源。

验证：让生成与校验形成闭环

长期以来，生成与验证被视为两个独立环节：先构建软件，再进行测试。这种分离在构建成本高昂、周期漫长的时代自有其合理性。

然而，借助大语言模型，生成过程如今几乎可以瞬间完成。但验证环节——确认输出结果是否真正符合预期——依然全靠人工，耗时且低效。这正是"氛围编程"（Vibe Coding）的悖论所在：60 秒内生成一个完整应用，接下来却要花三个小时验证它是否真的能正常运行。

共享感知能力打破了这一壁垒。当人类与智能体能够观察同一视觉输出并各自推理其内容时，生成与验证就可以形成一个持续循环，无需反复的人工中间干预。智能体可以像人工审查者一样看到自己构建的成果，感知按钮错位或移动端布局错乱等问题。

工作原理：智能体在代码生成完成后调用 Nova Act Visual Verifier 技能，该技能启动渲染后的应用程序并自动执行验证流程。首先运行确定性检查，直接从 DOM 中读取计算后的 CSS 样式，无需 AI 介入即可即时捕获视觉偏差；随后执行行为检查，智能体以人类测试者的方式端到端地走完用户操作流程，捕捉功能性回归问题。

生成与验证相结合的方式，帮助亚马逊团队在内部构建了精度更高的 Web 应用。事实上，标注扩展程序本身及团队的内部工具，也均是借助这套工具构建完成的。

Nova Act Visual Verifier 技能今日正式开源。

开放共建，持续演进

标注与验证是亚马逊 AGI 实验室团队在实践中验证有效的两项基础组件。团队选择以开放方式构建感知智能体工具套件，正是因为这类交互模式会随着更多人的使用、压力测试和二次开发而不断完善。

欢迎立即体验，并告知还缺少哪些功能。接下来该优先构建哪些基础组件，团队希望与社区共同探讨决定。

Q&A

Q1：感知智能体的标注功能具体是怎么用的？

A：用户可通过 Nova Act Annotator 的浏览器扩展程序或直接调用对应技能来使用标注功能。在浏览网页时打开扩展，选择绘图、元素或点选模式，对需要修改的地方进行标记。在网页上点击元素，工具会自动捕获其 DOM 选择器、边界框和计算样式；在文档或图表等视觉界面上，则可以手绘圈注、划叉或箭头，直观传达修改意图。标注结果保存为结构化产物，智能体可据此精准执行操作，无需再用文字反复描述。

Q2：Nova Act Visual Verifier 是如何自动验证应用输出的？

A：智能体在生成代码后调用 Nova Act Visual Verifier 技能，该技能会启动渲染后的应用并自动运行两类检查：首先是确定性检查，直接读取 DOM 中的 CSS 计算样式，无需 AI 参与即可即时发现视觉偏差；然后是行为检查，智能体模拟真实用户操作，端到端走完完整的用户流程，捕捉功能性回归问题。两类检查组合使用，使生成与验证形成连续闭环，大幅减少人工干预。

Q3：感知智能体工具套件的标注功能支持多人协作吗？

A：支持。标注功能并不限于用户与智能体之间的一对一交互，而是面向团队协作设计的。设计师可以圈出布局问题，质量工程师可以标记异常操作流程，生成的结构化标注文件可以直接发送给智能体或其他开发人员。这样一来，反馈本身就携带了完整上下文，不再需要将问题转化为文字消息或工单，从而避免信息在传递过程中丢失。

后续操作用户亚马逊 Act 功能 Nova 工具 Visual 内容智能智能体

上一篇：优选智能交通适用服务器，搭配CentOS且兼容业务架构的产品多少钱

下一篇：英特尔开源版图持续收缩：AI 加速开源项目 BigDL 被砍，本月底正式归档

亚马逊开源感知智能体工具：标注与验证功能正式发布

相关内容

热门资讯