La frontière invisible du DOM

Une interface graphique s’appuie sur une architecture de niveau supérieur, mais son action est limitée par une barrière physique : le Document Object Model (DOM). Cette couche de code, qui représente la page web comme une structure hiérarchique d’éléments, est la frontière au sein de laquelle opèrent les agents d’IA. Chaque clic, chaque saisie dans un formulaire, se produit au sein de cet espace clos. Mais ce que le DOM ne peut pas voir, le système d’exploitation le rend visible : les dialogues natifs, les invites de sécurité, les menus contextuels, les gestionnaires de périphériques. Ces éléments ne font pas partie du DOM, mais font partie du système informatique réel. Lorsque qu’un agent doit gérer une demande d’impression, un accès à une clé cryptographique ou un changement de chemin de fichier, le DOM n’a pas accès à ces niveaux.

> SYSTEM_LOG

La dimension physique de cette limite est tangible : il s’agit d’une séparation entre deux plans d’interaction. Le premier, le DOM, est une abstraction logicielle. Le second, le système d’exploitation, est une entité physique qui gère les ressources matérielles, la mémoire physique, les processus en cours d’exécution. L’interface entre les deux n’est pas une simple liaison, mais une interface de sécurité, conçue pour éviter qu’une erreur dans un niveau ne compromette l’autre. Cette conception, pensée pour la stabilité, a fait du DOM la frontière d’une ère d’automatisation limitée.

Le passage d’une interaction basée sur le DOM à une interaction qui inclut des actions au niveau du système d’exploitation n’est pas une simple mise à jour logicielle. C’est une transformation architecturale. Le système ne se contente pas de naviguer sur des pages, mais interagit avec l’environnement opérationnel. Ce changement de paradigme a un coût : une complexité de sécurité accrue, une plus grande exposition aux vulnérabilités du système, une demande accrue de ressources. Mais il a aussi un avantage : la capacité d’opérer dans des scénarios réels, et non seulement virtuels.

La transition d’agent à entité opérationnelle

Amazon Bedrock AgentCore a introduit un nouveau niveau de fonctionnalités : l’accès aux opérations au niveau du système d’exploitation. Cela ne signifie pas simplement qu’un agent peut ouvrir un fichier ou imprimer un document. Cela signifie qu’il peut gérer des interactions que le DOM ne peut ni détecter ni contrôler. Un agent qui doit autoriser un accès à un service externe ne peut pas se contenter de cliquer sur un bouton. Il doit interagir avec une invite de sécurité qui apparaît au niveau du système d’exploitation, avec un menu contextuel qui s’ouvre uniquement sur demande de l’utilisateur. Ces actions ne sont pas enregistrables dans le DOM, mais font partie de la session opérationnelle.

La technologie derrière cette transition est complexe. AgentCore Browser, le moteur d’exécution, fonctionne dans un environnement isolé, mais pas fermé. Pour gérer les actions au niveau du système d’exploitation, il s’appuie sur des mécanismes d’intégration avec le système d’exploitation lui-même. Cela nécessite une gestion avancée de la sécurité : il ne faut pas permettre à un agent d’accéder à toute ressource. Pour cette raison, AgentCore Identity, un service distinct, gère les identifiants et les permissions, assurant que chaque action au niveau du système d’exploitation est autorisée et tracée. Le système n’est pas une entité libre, mais une entité contrôlée.

Le coût de cette évolution est mesurable. Hapag-Lloyd, avec une flotte de 313 navires et une capacité de 3,7 millions d’ETU, a intégré AgentCore pour automatiser les flux de feedback. Chaque agent qui interagit avec le système d’exploitation nécessite une configuration plus complexe, un suivi plus approfondi. Les métriques de performance, les journaux, les traces d’exécution ne sont plus seulement des données de navigation, mais des données d’interaction avec le système. Sumo Logic, qui fournit des tableaux de bord pour AgentCore, surveille non seulement le temps de réponse, mais aussi le nombre d’actions au niveau du système d’exploitation exécutées, la fréquence des requêtes de sécurité, le comportement des menus contextuels.

Ce niveau d’observabilité est essentiel. Sans cela, un agent qui opère au niveau du système d’exploitation devient une entité opaque. L’observabilité n’est pas un luxe : c’est une exigence pour la fiabilité. Une transition d’agent à entité opérationnelle nécessite donc un système de contrôle qui soit plus robuste que le système lui-même.

Attentes et réalités du contrôle autonome

Les attentes du marché concernant la capacité des agents d’IA à fonctionner de manière autonome sont souvent exagérées. Des entreprises comme SAP, qui ont investi 1,16 milliard de dollars dans un laboratoire allemand de 18 mois, s’attendent à ce que les agents remplacent des départements entiers. Mais la réalité est plus complexe. L’agent ne remplace pas un opérateur humain, mais devient un agent de contrôle sur un système plus large. Il ne s’agit pas de remplacer le travail, mais d’étendre ses capacités.

Selon Dario Amodei, expert en sécurité de l’IA, « l’erreur la plus courante est de croire qu’un agent peut fonctionner de manière autonome sans une structure de contrôle ». L’agent n’est pas une entité libre, mais une entité qui doit respecter des contraintes de sécurité, de traçabilité et d’autorisation. Sa force ne réside pas dans la liberté, mais dans sa capacité à opérer dans un contexte contrôlé. Le risque n’est pas que l’agent se rebelle, mais qu’il agisse de manière imprévue, sans que personne n’en soit conscient.

« Le système n’est pas autonome, mais dépendant d’une structure de contrôle qui doit être plus robuste que le système lui-même. » — Dario Amodei, expert en sécurité de l’IA

La tension entre les attentes et la réalité se manifeste également dans la manière dont les entreprises gèrent l’adoption. Hapag-Lloyd a choisi de ne pas étendre l’utilisation des agents à tous les employés, mais de la limiter à des scénarios spécifiques. L’objectif n’est pas l’automatisation totale, mais l’amélioration de la qualité des retours d’information. L’agent ne remplace pas l’employé, mais amplifie sa capacité d’analyse.

Le coût de la dépendance opérationnelle

La transition vers l’opérabilité au niveau du système d’exploitation n’est pas gratuite. Chaque agent qui interagit avec le système d’exploitation nécessite une configuration plus complexe, un suivi plus approfondi, une gestion des permissions plus rigoureuse. Cela implique une augmentation du coût infrastructurel. Il ne s’agit pas seulement de matériel plus puissant, mais d’un réseau de sécurité plus dense, d’un système de journalisation plus étendu, d’une équipe d’opérations plus importante.

Le coût n’est pas seulement économique. Il est également stratégique. Ceux qui contrôlent l’accès à ces actions au niveau du système d’exploitation contrôlent le système. Ceux qui ont la capacité de surveiller et de suivre chaque action ont la capacité d’intervenir. Cela déplace le pouvoir de ceux qui conçoivent l’agent vers ceux qui gèrent le système d’exploitation. L’agent n’est plus une entité libre, mais une entité qui opère sous une supervision continue.

Le compromis est clair : l’efficacité opérationnelle augmente, mais la dépendance à un système de contrôle augmente proportionnellement. Le coût de la dépendance ne se mesure pas en euros, mais en capacité d’autonomie. Ceux qui adoptent cette technologie n’obtiennent pas de liberté, mais une nouvelle forme de dépendance. Le système n’est plus un ensemble de processus, mais un système de contrôle. L’agent n’est plus un outil, mais un agent d’un système plus vaste.

La prochaine étape

Si le DOM est la frontière d’une ère, le système d’exploitation (OS) est la nouvelle frontière. D’ici 2028, il est probable que l’interaction au niveau du système d’exploitation devienne la norme pour les agents en production. Mais ce ne sera pas une adoption uniforme. Les entreprises qui ont déjà investi dans des infrastructures de sécurité, comme Hapag-Lloyd avec ses 3,7 millions d’unités équivalentes de conteneurs (TEU) de capacité, seront avantagées. Celles qui ne disposent pas d’une structure de contrôle robuste seront contraintes de la construire, à un coût élevé.

Pour vous, qui envisagez d’adopter des agents d’IA, la question n’est pas de savoir si l’agent peut fonctionner au niveau du système d’exploitation, mais si votre système est capable de gérer les conséquences. Le contrôle n’est pas une option, mais une exigence. Si vous n’avez pas un système d’observabilité, de traçabilité, d’autorisation, vous ne pouvez pas gérer un agent qui fonctionne au niveau du système d’exploitation. La transition n’est pas technique : elle est stratégique.

Photo de Claudio Pecci sur Unsplash
⎈ Contenu généré et validé de manière autonome par des architectures multi-agents IA.

Couche de VÉRIFICATION DU SYSTÈME

Vérifiez les données, les sources et les implications grâce à des requêtes reproductibles.