La degradación silenciosa
En 2025, se observó la expansión de los superaplicaciones, como Grab en el Sudeste Asiático, que integraron la IA para mejorar la experiencia del usuario y el rendimiento operativo. Sin embargo, un dato emergente no es el crecimiento de los modelos, sino su inestabilidad con el tiempo. Los agentes que funcionan bien al inicio no mantienen el rendimiento, no porque el modelo se haya deteriorado, sino porque los contextos de uso evolucionan. Un prompt adecuado para un caso de servicio al cliente en marzo puede generar errores en agosto, cuando las solicitudes se han vuelto más complejas. El fallo no está en el modelo, sino en la llamada a la herramienta, en la truncación del contexto o en un bucle infinito que consume recursos sin producir resultados.
Este fenómeno ha sido documentado en varios informes técnicos. Según un análisis de DigitalApplied, los incidentes en los agentes se deben en gran parte a fallos en las herramientas, a la truncación del contexto y a bucles no terminados, y no a errores del modelo. Las herramientas tradicionales de APM (Application Performance Monitoring) no pueden detectar estos problemas porque no son conscientes de los agentes. Los datos indican que el mantenimiento de los agentes ya no puede ser una intervención manual, sino que debe convertirse en un proceso diseñado, impulsado por consultas y rastreos.
El ciclo de calidad como infraestructura
La respuesta a esta degradación es el ciclo de calidad del agente, un mecanismo que se basa en tres niveles de evaluación: evaluaciones unitarias en pasos individuales, suites de regresión con LLM como juez para la calidad subjetiva y muestreo continuo de trazas en producción para detectar la deriva real. Este modelo, descrito en un informe de LangChain, es el fundamento de una arquitectura que no solo detecta errores, sino que los previene. Cada ciclo de mejora comienza con una traza, la enriquece con evaluaciones y comentarios humanos, identifica un patrón de fallo, aplica una corrección específica y la valida antes de ser implementada.
AgentCore Evaluations de Amazon Bedrock, presentado en re:Invent 2025, implementa este ciclo con 13 evaluadores predefinidos que cubren dimensiones como corrección, utilidad y uso de herramientas. El sistema no solo señala un error, sino que genera recomendaciones basadas en las trazas de producción. Esto transforma el mantenimiento de una actividad reactiva a un proceso proactivo, en el que el sistema se auto-optimiza. El repositorio GitHub agentcore-samples, con más de 540 commits, demuestra la creciente adopción de este paradigma, que se está consolidando como estándar técnico.
La brecha entre la visión y la realidad
La narrativa pública habla de agentes autónomos, inteligentes, capaces de tomar decisiones complejas. Sin embargo, los datos muestran que su fiabilidad depende de una estructura de feedback invisible, que opera a nivel de trazado, no de modelo. Los líderes del sector, como Sam Altman y Dario Amodei, han advertido sobre el riesgo de una IA no controlada, pero no han abordado el problema de la degradación operativa. La brecha se manifiesta en esto: mientras se discute de AGI, la realidad es que los agentes más avanzados están anclados a ciclos de calidad que los mantienen funcionales.
Un análisis de Redacción de DigitalApplied confirma que las causas principales de los incidentes son instrumentales y arquitecturales, no cognitivas. «Los fallos de herramientas dominan las interrupciones», escriben, subrayando que la vulnerabilidad no está en el modelo, sino en su integración con el entorno. Esto contrasta con la imagen común de una IA que «se confunde» o «se pierde». En la práctica, el agente no se ha perdido: ha sido bloqueado por una herramienta que no responde, un contexto truncado o un bucle que no se ha detenido.
El futuro diseñado
El futuro de los agentes ya no está en la evolución del modelo, sino en la construcción de ciclos de calidad que los mantengan operativos durante meses. Esto requiere una infraestructura de observabilidad especializada, que no solo registre datos, sino que los interprete. Plataformas como LangSmith, Braintrust y Langfuse han ocupado nichos diferentes: LangSmith se centra en los flujos de trabajo de LangChain, Braintrust en la ciencia de las evaluaciones y Langfuse en el código abierto como línea de base. La convergencia en este modelo indica que la calidad no es un atributo del modelo, sino un producto de un sistema diseñado.
El dato más significativo no es el número de modelos, sino el número de ciclos de mejora que se pueden automatizar. El sistema ya no se basa en una idea de inteligencia perfecta, sino en una capacidad de reparación continua. Esto no es un paso hacia la AGI, sino una evolución hacia una forma de inteligencia resiliente, que se adapta al mundo real sin tener que predecirlo.
Tu decisión
Si estás diseñando un agente, no te preguntes si el modelo es lo suficientemente inteligente. Pregúntate si el ciclo de calidad es lo suficientemente robusto. Tu sistema no tiene que ser perfecto al lanzamiento: debe ser capaz de repararse a sí mismo.
Foto de The Ride Academy en Unsplash
⎈ Contenido generado y validado de forma autónoma por arquitecturas de IA multi-agente.
Capa de VERIFICACIÓN del SISTEMA
Verifica datos, fuentes e implicaciones a través de consultas replicables.