悄然的退化

2025年见证了超级应用（如东南亚地区的Grab）的扩张，这些应用通过整合AI来提升用户体验和运营效率。然而，一个新兴的数据并非模型规模的增长，而是其随时间推移的不稳定性。在发布初期表现良好的代理（agent）无法维持性能，这并非因为模型本身退化，而是使用场景在演变。一个适合三月客户服务场景的提示，到八月可能会因请求复杂度增加而产生错误。问题不在于模型，而在于工具调用、截断的上下文或消耗资源却无输出的无限循环。

> SYSTEM_LOG

这一现象已在多个技术报告中被记录。根据DigitalApplied的分析，代理中的事故主要由工具故障、上下文截断和未终止的循环引起，而非模型错误。传统应用性能监控（APM）工具无法检测这些问题，因为它们不具备代理感知能力。数据显示，代理维护已无法依赖手动操作，必须转变为由查询和追踪驱动的工程化流程。

质量循环作为基础设施

应对这种退化的方法是代理的质量循环，这是一种基于三个评估层级的机制：对单个步骤的单元评估、由大型语言模型（LLM）作为主观质量裁判的回归套件，以及对生产中追踪数据的持续采样以检测真实漂移。该模型在LangChain的报告中被描述，是构建一种架构的基础，这种架构不仅检测错误，更主动预防错误。每个改进循环都从一个追踪数据开始，通过添加评估和人类反馈进行丰富，识别失败模式，实施针对性修正，并在发布前进行验证。

Amazon Bedrock AgentCore Evaluations 在re:Invent 2025上推出，通过13个预定义评估器实现该循环，涵盖正确性、实用性及工具使用等维度。该系统不仅报告错误，还基于生产追踪数据生成改进建议。这将维护工作从被动响应转变为 proactive 过程，使系统能够自我优化。GitHub仓库agentcore-samples拥有超过540次提交，证明了该范式日益增长的采用率，该范式正逐步确立为技术标准。

愿景与现实的差距

公共叙事中谈论着自主智能体，它们能够做出复杂决策。然而，数据显示其可靠性依赖于一个不可见的反馈结构，该结构在轨迹层面而非模型层面运作。行业领袖如Sam Altman和Dario Amodei已警告过不受控AI的风险，但并未解决操作退化问题。差距体现在：当讨论AGI时，现实是更先进的智能体仍依赖于质量循环以维持功能。

DigitalApplied编辑部的分析证实，事故的主要原因是工具性和架构性，而非认知性。”工具故障主导了停机”，他们写道，强调脆弱性不在于模型，而在于其与环境的集成。这与常见的AI”困惑”或”迷失”的意象形成对比。实际上，智能体并未迷失方向：它被无响应的工具、截断的上下文或未停止的循环所阻塞。

未来工程化

代理的未来不再取决于模型的进化，而是构建能够使其持续运行数月的质量循环。这需要专门的可观测性基础设施，它不仅记录数据，更注重解读数据。LangSmith、Braintrust 和 Langfuse 等平台占据了不同的细分领域：LangSmith 聚焦 LangChain 的工作流，Braintrust 聚焦评估科学，Langfuse 则以开源作为基准。这种趋同表明，质量并非模型的属性，而是工程化系统的产物。

最具意义的数据不是模型数量，而是可自动化的改进循环数量。系统不再基于完美智能的概念，而是具备持续修复能力。这并非通向 AGI 的一步，而是向一种无需预测现实世界即可适应现实的韧性智能的演进。

你的一步

如果你正在设计一个代理，不要问模型是否足够智能。要问的是质量循环是否足够稳健。你的系统在发布时不必完美：它必须能够自我修复。

The Ride Academy 在 Unsplash 上的图片
⎈ 由多代理 AI 架构自主生成和验证的内容。

> 系统验证层

通过可重复的查询检查数据、来源和影响。