En 2025, les super-applications, comme Grab en Asie du Sud-Est, ont étendu leur utilisation et ont intégré l’IA pour améliorer l’expérience utilisateur et les performances opérationnelles. Cependant, un élément émergent n’est pas la croissance des modèles, mais leur instabilité dans le temps. Les agents qui fonctionnent bien au lancement ne maintiennent pas leurs performances, non pas parce que le modèle s’est détérioré, mais parce que les contextes d’utilisation évoluent. Une requête adaptée à un cas de service client en mars peut générer des erreurs en août, lorsque les demandes sont devenues plus complexes. L’échec ne réside pas dans le modèle, mais dans l’appel aux outils, dans la troncature du contexte ou dans une boucle infinie qui consomme des ressources sans produire de résultats.

> SYSTEM_LOG

Ce phénomène a été documenté dans plusieurs rapports techniques. Selon une analyse de DigitalApplied, les incidents dans les agents sont principalement causés par des défaillances dans les outils, par la troncature du contexte et par des boucles non terminées, et non par des erreurs du modèle. Les outils traditionnels de APM (Application Performance Monitoring) ne parviennent pas à détecter ces problèmes car ils ne sont pas adaptés aux agents. Ces données indiquent que la maintenance des agents ne peut plus être une intervention manuelle, mais doit devenir un processus structuré, basé sur des requêtes et des traces.

Le itérations de qualité en tant qu’infrastructure

La réponse à cette dégradation est le cycle de qualité de l’agent, un mécanisme qui repose sur trois niveaux d’évaluation : évaluations unitaires sur des étapes individuelles, suites de régression avec des LLM en tant que juge pour la qualité subjective, et échantillonnage continu des traces en production pour détecter le dérive réel. Ce modèle, décrit dans un rapport de LangChain, est le fondement d’une architecture qui ne se contente pas de détecter les erreurs, mais de les prévenir. Chaque cycle d’amélioration part d’une trace, la enrichit avec des évaluations et des retours d’utilisateur, identifie un schéma d’échec, apporte une correction ciblée et la valide avant d’être déployée.

AgentCore Evaluations d’Amazon Bedrock, présenté au re:Invent 2025, implémente ce cycle avec 13 évaluateurs prédéfinis qui couvrent des dimensions telles que la correction, l’utilité et l’utilisation des outils. Le système ne se contente pas de signaler une erreur, mais génère des recommandations basées sur les traces de production. Cela transforme la maintenance d’une activité réactive en un processus proactif, où le système s’auto-optimise. Le dépôt GitHub agentcore-samples, avec plus de 540 commits, démontre l’adoption croissante de ce paradigme, qui se consolide comme norme technique.

Le fossé entre vision et réalité

Le discours public parle d’agents autonomes, intelligents, capables de prendre des décisions complexes. Cependant, les données montrent que leur fiabilité dépend d’une structure de rétroaction invisible, qui opère au niveau de la trace, et non du modèle. Les leaders du secteur, comme Sam Altman et Dario Amodei, ont mis en garde contre le risque d’une IA non contrôlée, mais n’ont pas abordé le problème de la dégradation opérationnelle. Le fossé se manifeste ainsi : alors que l’on discute de l’AGI, la réalité est que les agents les plus avancés sont ancrés dans des cycles de qualité qui les maintiennent fonctionnels.

Une analyse de Redazione di DigitalApplied confirme que les causes principales des incidents sont instrumentales et architecturales, et non cognitives. « Les défaillances des outils dominent les pannes », écrivent-ils, soulignant que la vulnérabilité ne réside pas dans le modèle, mais dans son intégration avec l’environnement. Cela contraste avec l’image courante d’une IA qui « se perd » ou « se trompe ». En pratique, l’agent ne s’est pas perdu : il a été bloqué par un outil non réactif, un contexte tronqué ou une boucle qui ne s’est jamais arrêtée.

Le agents du futur

L’avenir des agents ne réside plus dans l’évolution du modèle, mais dans la construction de cycles de qualité qui les maintiennent opérationnels pendant des mois. Cela nécessite une infrastructure d’observabilité spécialisée, qui ne se contente pas d’enregistrer des données, mais de les interpréter. Des plateformes comme LangSmith, Braintrust et Langfuse ont occupé des niches différentes : LangSmith se concentre sur les workflows de LangChain, Braintrust sur la science des évaluations, Langfuse sur l’open-source comme base de référence. Cette convergence vers ce modèle indique que la qualité n’est pas un attribut du modèle, mais un produit d’un système ingénié.

Le chiffre le plus significatif n’est pas le nombre de modèles, mais le nombre de cycles d’amélioration qui peuvent être automatisés. Le système ne repose plus sur une idée d’intelligence parfaite, mais sur une capacité de réparation continue. Ce n’est pas un pas vers l’AGI, mais une évolution vers une forme d’intelligence résiliente, qui s’adapte au monde réel sans avoir à le prévoir.

Votre prochain mouvement

Si vous concevez un agent, ne vous demandez pas si le modèle est suffisamment intelligent. Demandez-vous si le cycle de qualité est suffisamment robuste. Votre système ne doit pas être parfait au lancement : il doit être capable de se réparer lui-même.

Photo de The Ride Academy sur Unsplash
⎈ Contenu généré et validé de manière autonome par des architectures IA multi-agents.

Couche de VÉRIFICATION

Vérifiez les données, les sources et les implications grâce à des requêtes reproductibles.

Le itérations de qualité en tant qu’infrastructure

Le fossé entre vision et réalité

Le agents du futur

Votre prochain mouvement

Couche de VÉRIFICATION

PARTAGER

// Focus