La frontera invisible del DOM
Una interfaz gráfica se construye sobre una arquitectura de nivel superior, pero su acción está limitada por una barrera física: el Document Object Model. Esta capa de código, que representa la página web como una estructura jerárquica de elementos, es el límite dentro del cual operan los agentes de IA. Cada clic, cada compilación de formulario, ocurre dentro de este espacio cerrado. Pero lo que el DOM no puede ver, el sistema operativo lo hace visible: los diálogos nativos, los avisos de seguridad, los menús contextuales, los gestores de periféricos. Estos elementos no son parte del DOM, pero son parte del sistema computacional real. Cuando un agente debe gestionar una solicitud de impresión, un acceso a una clave criptográfica o un cambio de ruta de archivo, el DOM no tiene acceso a estos niveles.
La dimensión física de este límite es tangible: se trata de una separación entre dos planos de interacción. El primero, el DOM, es una abstracción de software. El segundo, el sistema operativo, es una entidad física que gestiona recursos de hardware, memoria física, procesos en ejecución. La interfaz entre los dos no es una simple conexión, sino una interfaz de seguridad, diseñada para evitar que un error en un nivel comprometa al otro. Este diseño, pensado para la estabilidad, ha convertido al DOM en el límite de una era de automatización limitada.
El paso de una interacción basada en DOM a una que incluye acciones a nivel de SO no es una actualización de software. Es una transformación arquitectónica. El sistema no se limita a navegar páginas, sino que interactúa con el entorno operativo. Este cambio de paradigma tiene un costo: mayor complejidad de seguridad, mayor exposición a vulnerabilidades del sistema, mayor demanda de recursos. Pero también tiene una ventaja: la capacidad de operar en escenarios reales, no solo virtuales.
La transición de agente a entidad operativa
Amazon Bedrock AgentCore ha introducido un nuevo nivel de funcionalidad: el acceso a operaciones a nivel de sistema operativo. Esto no significa simplemente que un agente pueda abrir un archivo o imprimir un documento. Significa que puede gestionar interacciones que el DOM no puede detectar ni controlar. Un agente que debe autorizar un acceso a un servicio externo no puede limitarse a hacer clic en un botón. Debe interactuar con un aviso de seguridad que aparece a nivel de sistema operativo, con un menú contextual que se abre solo a petición del usuario. Estas acciones no son registrables en el DOM, pero son parte de la sesión operativa.
La tecnología detrás de esta transición es compleja. AgentCore Browser, el motor de ejecución, opera en un entorno aislado, pero no cerrado. Para gestionar las acciones del sistema operativo, se basa en mecanismos de integración con el sistema operativo mismo. Esto requiere una gestión avanzada de la seguridad: no se puede permitir que un agente acceda a cualquier recurso. Por lo tanto, AgentCore Identity, un servicio separado, gestiona las credenciales y los permisos, asegurando que cada acción a nivel de sistema operativo esté autorizada y registrada. El sistema no es una entidad libre, sino una entidad controlada.
El coste de esta evolución es medible. Hapag-Lloyd, con una flota de 313 buques y una capacidad de 3,7 millones de TEU, ha integrado AgentCore para automatizar flujos de retroalimentación. Cada agente que interactúa con el sistema operativo requiere una configuración más compleja, un seguimiento más exhaustivo. Las métricas de rendimiento, los registros, las trazas de ejecución no son solo datos de navegación, sino datos de interacción con el sistema. Sumo Logic, que proporciona paneles para AgentCore, monitoriza no solo el tiempo de respuesta, sino también el número de acciones del sistema operativo ejecutadas, la frecuencia de solicitudes de seguridad, el comportamiento de los menús contextuales.
Este nivel de observabilidad es esencial. Sin él, un agente que opera a nivel de sistema operativo se convierte en una entidad opaca. La observabilidad no es un lujo: es un requisito para la fiabilidad. Una transición de agente a entidad operativa requiere, por lo tanto, un sistema de control que sea más robusto que el propio sistema.
Expectativas y realidades del control autónomo
Las expectativas del mercado sobre la capacidad de los agentes de IA para operar de forma autónoma a menudo son exageradas. Empresas como SAP, que han invertido 1.160 millones de dólares en un laboratorio alemán de 18 meses, esperan que los agentes reemplacen departamentos enteros. Pero la realidad es más compleja. El agente no reemplaza a un operador humano, sino que se convierte en un agente de control sobre un sistema más amplio. No se trata de sustituir el trabajo, sino de extender su capacidad.
Según Dario Amodei, experto en seguridad de la IA, «el error más común es creer que un agente puede operar de forma autónoma sin una estructura de control». El agente no es una entidad libre, sino una entidad que debe respetar restricciones de seguridad, de trazabilidad y de autorización. Su poder no reside en la libertad, sino en la capacidad de operar en un contexto controlado. El riesgo no es que el agente se rebele, sino que opere de forma no prevista, sin que nadie lo sepa.
«El sistema no es autónomo, sino dependiente de una estructura de control que debe ser más robusta que el sistema mismo.» — Dario Amodei, experto en seguridad de la IA
La tensión entre la expectativa y la realidad también se manifiesta en la forma en que las empresas gestionan la adopción. Hapag-Lloyd ha optado por no extender el uso de los agentes a todos los empleados, sino por limitarlo a escenarios específicos. El objetivo no es la automatización total, sino el incremento de la calidad de la retroalimentación. El agente no sustituye al empleado, sino que amplía su capacidad de análisis.
El costo de la dependencia operativa
La transición hacia la operatividad a nivel de sistema operativo no es gratuita. Cada agente que interactúa con el sistema operativo requiere una configuración más compleja, un monitoreo más profundo, una gestión de permisos más rigurosa. Esto implica un aumento del costo de la infraestructura. No se trata solo de hardware más potente, sino de una red de seguridad más densa, de un sistema de registro más extenso y de un equipo de operatividad más numeroso.
El costo no es solo económico. También es estratégico. Quien controla el acceso a estas acciones a nivel de sistema operativo, controla el sistema. Quien tiene la capacidad de monitorear y rastrear cada acción, tiene la capacidad de intervenir. Esto traslada el poder de quien diseña el agente a quien gestiona el sistema operativo. El agente ya no es una entidad libre, sino una entidad que opera bajo una supervisión continua.
El equilibrio es claro: la eficiencia operativa aumenta, pero la dependencia de un sistema de control aumenta proporcionalmente. El costo de la dependencia no es medible en euros, sino en capacidad de autonomía. Quien adopta esta tecnología no obtiene libertad, sino un nuevo tipo de dependencia. El sistema no es más un conjunto de procesos, sino un sistema de control. El agente ya no es una herramienta, sino un agente de un sistema más amplio.
El próximo paso
Si el DOM es la frontera de una era, el sistema operativo (OS) es la nueva línea de frente. Para 2028, es probable que la interacción a nivel de sistema operativo se convierta en un estándar para los agentes en producción. Pero no será una adopción uniforme. Las empresas que ya han invertido en infraestructuras de seguridad, como Hapag-Lloyd con sus 3,7 millones de TEU de capacidad, estarán en ventaja. Aquellas que no tengan una estructura de control robusta se verán obligadas a construirla, a un costo elevado.
Para ti, que estás evaluando la adopción de agentes de IA, la pregunta no es si el agente puede operar a nivel de sistema operativo, sino si tu sistema es capaz de gestionar las consecuencias. El control no es una opción, sino un requisito. Si no tienes un sistema de observabilidad, de trazabilidad, de autorización, no puedes gestionar un agente que opera a nivel de sistema operativo. La transición no es técnica: es estratégica.
Foto de Claudio Pecci en Unsplash
⎈ Contenidos generados y validados autónomamente por arquitecturas de IA multi-agente.
Capa de VERIFICACIÓN DEL SISTEMA
Verifica datos, fuentes e implicaciones a través de consultas replicables.