悄然的退化
2025年见证了超级应用(如东南亚地区的Grab)的扩张,这些应用通过整合AI来提升用户体验和运营效率。然而,一个新兴的数据并非模型规模的增长,而是其随时间推移的不稳定性。在发布初期表现良好的代理(agent)无法维持性能,这并非因为模型本身退化,而是使用场景在演变。一个适合三月客户服务场景的提示,到八月可能会因请求复杂度增加而产生错误。问题不在于模型,而在于工具调用、截断的上下文或消耗资源却无输出的无限循环。
这一现象已在多个技术报告中被记录。根据DigitalApplied的分析,代理中的事故主要由工具故障、上下文截断和未终止的循环引起,而非模型错误。传统应用性能监控(APM)工具无法检测这些问题,因为它们不具备代理感知能力。数据显示,代理维护已无法依赖手动操作,必须转变为由查询和追踪驱动的工程化流程。
质量循环作为基础设施
应对这种退化的方法是代理的质量循环,这是一种基于三个评估层级的机制:对单个步骤的单元评估、由大型语言模型(LLM)作为主观质量裁判的回归套件,以及对生产中追踪数据的持续采样以检测真实漂移。该模型在LangChain的报告中被描述,是构建一种架构的基础,这种架构不仅检测错误,更主动预防错误。每个改进循环都从一个追踪数据开始,通过添加评估和人类反馈进行丰富,识别失败模式,实施针对性修正,并在发布前进行验证。
Amazon Bedrock AgentCore Evaluations 在re:Invent 2025上推出,通过13个预定义评估器实现该循环,涵盖正确性、实用性及工具使用等维度。该系统不仅报告错误,还基于生产追踪数据生成改进建议。这将维护工作从被动响应转变为 proactive 过程,使系统能够自我优化。GitHub仓库agentcore-samples拥有超过540次提交,证明了该范式日益增长的采用率,该范式正逐步确立为技术标准。
愿景与现实的差距
公共叙事中谈论着自主智能体,它们能够做出复杂决策。然而,数据显示其可靠性依赖于一个不可见的反馈结构,该结构在轨迹层面而非模型层面运作。行业领袖如Sam Altman和Dario Amodei已警告过不受控AI的风险,但并未解决操作退化问题。差距体现在:当讨论AGI时,现实是更先进的智能体仍依赖于质量循环以维持功能。
DigitalApplied编辑部的分析证实,事故的主要原因是工具性和架构性,而非认知性。”工具故障主导了停机”,他们写道,强调脆弱性不在于模型,而在于其与环境的集成。这与常见的AI”困惑”或”迷失”的意象形成对比。实际上,智能体并未迷失方向:它被无响应的工具、截断的上下文或未停止的循环所阻塞。
未来工程化
代理的未来不再取决于模型的进化,而是构建能够使其持续运行数月的质量循环。这需要专门的可观测性基础设施,它不仅记录数据,更注重解读数据。LangSmith、Braintrust 和 Langfuse 等平台占据了不同的细分领域:LangSmith 聚焦 LangChain 的工作流,Braintrust 聚焦评估科学,Langfuse 则以开源作为基准。这种趋同表明,质量并非模型的属性,而是工程化系统的产物。
最具意义的数据不是模型数量,而是可自动化的改进循环数量。系统不再基于完美智能的概念,而是具备持续修复能力。这并非通向 AGI 的一步,而是向一种无需预测现实世界即可适应现实的韧性智能的演进。
你的一步
如果你正在设计一个代理,不要问模型是否足够智能。要问的是质量循环是否足够稳健。你的系统在发布时不必完美:它必须能够自我修复。
The Ride Academy 在 Unsplash 上的图片
⎈ 由多代理 AI 架构自主生成和验证的内容。
> 系统验证层
通过可重复的查询检查数据、来源和影响。