DOM的无形边界

一个图形界面建立在更高层次的架构之上，但其运作受到物理屏障的限制：文档对象模型（DOM）。这个将网页表示为元素层级结构的代码层，是AI代理运作的边界。每一次点击、每一次表单填写，都在这个封闭空间内发生。但DOM无法感知的系统元素，操作系统却将其呈现出来：原生对话框、安全提示、上下文菜单、外设管理器。这些元素不属于DOM，却是计算系统的实际组成部分。当代理需要处理打印请求、访问加密密钥或更改文件路径时，DOM无法访问这些层级。

> SYSTEM_LOG

这个边界的物理尺寸是可感知的：它代表两个交互平面的分离。第一个是DOM，属于软件抽象层；第二个是操作系统，作为管理硬件资源、物理内存和运行进程的实体存在。这两个层面之间的接口并非简单的连接，而是一个安全接口，旨在防止一个层面的错误影响另一个层面。这种为稳定性设计的架构，使DOM成为受限自动化时代的边界。

从基于DOM的交互转向包含操作系统层级操作的交互，不是软件更新，而是架构转变。系统不再局限于页面导航，而是与操作系统环境交互。这种范式转变有代价：更高的安全复杂性、更大的系统漏洞暴露风险、更高的资源需求。但同时带来优势：能够在现实场景中运作，而不仅限于虚拟环境。

从代理到操作实体的转变

Amazon Bedrock AgentCore 引入了新的功能层级：操作系统级别的操作权限。这不仅仅意味着代理可以打开文件或打印文档。这意味着它可以处理 DOM 无法检测或控制的交互。当代理需要授权访问外部服务时，不能仅通过点击按钮完成。它必须与操作系统级别的安全提示进行交互，与仅在用户请求时才出现的上下文菜单进行交互。这些操作无法在 DOM 中记录，但属于操作会话的一部分。

这项转变背后的技术复杂。AgentCore Browser，执行引擎，运行在隔离但非封闭的环境中。为处理操作系统操作，它依赖于与操作系统本身的集成机制。这需要高级别的安全管理：不能允许代理访问任何资源。为此，AgentCore Identity 作为独立服务管理凭证和权限，确保每个操作系统级别的操作都经过授权并可追溯。该系统并非自由实体，而是受控实体。

这种演进的成本是可衡量的。Hapag-Lloyd 旗下拥有 313 艘船舶，运力达 3.7 百万 TEU，已集成 AgentCore 以自动化反馈流程。每个与操作系统交互的代理都需要更复杂的配置和更深入的监控。性能指标、日志和执行追踪不再仅仅是导航数据，而是与系统交互的数据。Sumo Logic 提供 AgentCore 的仪表盘，不仅监控响应时间，还监控操作系统操作次数、安全请求频率、上下文菜单行为。

这种可观测性至关重要。没有它，运行在操作系统级别的代理将变得不可见。可观测性不是奢侈品：它是依赖性的要求。无法监控的系统无法被信赖。因此，从代理到操作实体的转变需要比系统本身更 robust 的控制体系。

自主代理的期望与现实

市场对AI代理自主运作能力的期望常常被高估。像SAP这样的企业，已投入11.6亿美元在德国的一个18个月实验室中，期望这些代理能取代整个部门。但现实更为复杂。代理不会取代人类操作员，而是成为更广泛系统中的控制代理。这不是取代工作，而是扩展能力。

据安全AI专家Dario Amodei表示：”最常见的错误是认为代理可以在没有控制结构的情况下自主运作”。代理并非自由实体，而是必须遵守安全、可追溯性和授权约束的实体。其权力不在于自由，而在于在受控环境中运作的能力。风险不在于代理反抗，而在于其以未预期的方式运作，且无人察觉。

“系统并非自主，而是依赖必须比系统本身更强大的控制结构。” — Dario Amodei，安全AI专家

期望与现实之间的张力也体现在企业采用方式上。Hapag-Lloyd选择不将代理扩展至所有员工，而是限制在特定场景中。目标并非全面自动化，而是提升反馈质量。代理不会取代员工，而是增强其分析能力。

操作依赖的成本

向操作系统层面的运营转型并非免费的。每个与操作系统交互的代理都需要更复杂的配置、更深入的监控以及更严格的权限管理。这意味着基础设施成本的增加。这不仅涉及更强大的硬件，还包括更密集的安全网络、更广泛的日志系统以及更多数量的操作团队。

成本不仅体现在经济层面。它也具有战略意义。谁控制了操作系统层面的访问权限，谁就控制了整个系统。谁具备监控和追踪每项操作的能力，谁就具备干预的能力。这将权力从代理的设计者转移到了操作系统管理方。代理不再是自由的实体，而是在持续监督下运作的实体。

权衡是明确的：运营效率提升，但对控制系统的依赖也成比例增加。依赖的成本无法用欧元衡量，而是以自主能力为代价。采用这项技术的主体并未获得自由，而是获得了一种新的依赖形式。系统不再是单纯的流程集合，而是一个控制系统。代理不再是工具，而是更广泛系统的代理。

下一步

如果DOM是某个时代的边界，那么操作系统就是新的前沿。到2028年，操作系统层面的交互很可能成为生产代理的标准。但这种采用不会是统一的。那些已经投资于安全基础设施的企业，例如Hapag-Lloyd公司拥有370万标准箱的运力，将占据优势。缺乏强大控制结构的企业将被迫构建它，这将带来高昂的成本。

对于你来说，评估代理AI的采用时，问题不在于代理能否在操作系统层面运行，而在于你的系统是否能够应对由此带来的后果。控制不是一种选择，而是一种要求。如果你没有可观测性、可追溯性和授权系统，就无法管理一个在操作系统层面运行的代理。这场转型不是技术问题：而是战略问题。

Claudio Pecci 在Unsplash上的照片
⎈ 由多代理AI架构自主生成和验证的内容。

> 系统验证层

通过可重复的查询检查数据、来源和影响。

DOM的无形边界

从代理到操作实体的转变

自主代理的期望与现实

操作依赖的成本

下一步

> 系统验证层

分享

// Focus