🚨 NeuralTrust levanta 20M$
Volver

Diez meses después de CaMeL, ¿dónde están los agentes de IA seguros?

Alessandro Pignati 12 de febrero de 2026
Compartir
Diez meses después de CaMeL, ¿dónde están los agentes de IA seguros?

Los grandes modelos de lenguaje (LLMs) han transformado rápidamente cómo interactuamos con la tecnología, impulsando desde chatbots avanzados hasta sofisticados sistemas agénticos. Sin embargo, con sus crecientes capacidades llega una vulnerabilidad crítica: la prompt injection. Este ataque insidioso permite a actores maliciosos manipular un LLM mediante entradas cuidadosamente diseñadas, obligándolo a desviarse de su propósito previsto, ejecutar acciones no autorizadas o incluso filtrar información sensible. Imagina un asistente de IA diseñado para gestionar tu calendario al que de repente engañan para enviar las notas privadas de tu reunión a una dirección de correo desconocida. Ese es el peligro real de la prompt injection.

La industria sigue lidiando con defensas reactivas como filtros heurísticos, trucos de prompt engineering o costosos esfuerzos de fine-tuning. Aunque estos métodos ofrecen cierta mitigación, a menudo se sienten como un juego de whack-a-mole, persiguiendo constantemente nuevos vectores de ataque sin abordar la causa raíz. Carecen de la robustez fundamental que requieren los sistemas que manejan datos sensibles u operaciones críticas. La pregunta entonces es: ¿podemos ir más allá de estas soluciones parciales y adoptar un enfoque más fundamental y arquitectónico para la seguridad de los LLMs?

La investigación de DeepMind introdujo CaMeL (CApabilities for MachinE Learning) como un nuevo framework que prometía un cambio de paradigma significativo en esta batalla. En lugar de intentar filtrar prompts maliciosos después de recibirlos, CaMeL buscaba derrotar las prompt injections por diseño. Inspirándose en principios consolidados de seguridad del software como la control flow integrity y la capability-based security, esbozó una capa protectora alrededor del LLM, diseñada para preservar la integridad del sistema incluso al manejar datos no confiables.

La visión era proactiva y arquitectónica. Sugería un camino hacia sistemas agénticos verdaderamente seguros y confiables. Sin embargo, diez meses después, las implementaciones convincentes en el mundo real siguen siendo limitadas, y la industria parece apoyarse en gran medida en defensas reactivas en lugar de adoptar los cambios estructurales que propuso CaMeL.

La arquitectura CaMeL: un framework seguro para sistemas agénticos

En esencia, CaMeL no es un único modelo, sino un framework meticulosamente diseñado que orquesta múltiples componentes para lograr una seguridad robusta. Esta arquitectura, conceptualizada a menudo como un "cuarteto", redefine de forma fundamental cómo los LLMs interactúan con su entorno y manejan datos. Al separar responsabilidades y aplicar límites estrictos, CaMeL garantiza que incluso los intentos sofisticados de prompt injection se frustren a nivel arquitectónico.

Los cuatro componentes centrales del framework CaMeL son:

  • El Privileged LLM (P-LLM): el cerebro de confianza de la operación, responsable de entender la intención del usuario y de generar un plan de acción seguro.
  • El Quarantined LLM (Q-LLM): un LLM especializado diseñado para procesar de forma segura datos externos potencialmente no confiables, sin capacidad de ejecutar acciones.
  • El intérprete Python personalizado: el motor de enforcement que ejecuta el plan del P-LLM, rastreando meticulosamente el flujo de datos y aplicando políticas de seguridad en tiempo real.
  • Políticas de seguridad: un conjunto de reglas predefinidas que gobiernan cómo pueden usarse los datos y cómo pueden invocarse las herramientas, basándose en el origen y la naturaleza de los datos.

Este cuarteto trabaja al unísono para crear un entorno en el que el control flow —lo que el agente hace— está estrictamente separado del data flow —la información que el agente procesa. Esta separación es primordial. Los sistemas LLM tradicionales suelen confundir ambos, haciéndolos susceptibles a prompt injections que pueden secuestrar simultáneamente la toma de decisiones del agente y manipular su manejo de datos. El diseño arquitectónico de CaMeL asegura que las acciones del agente estén siempre alineadas con su propósito previsto y con sus políticas de seguridad, incluso ante entradas adversariales.

El Privileged LLM (P-LLM): el orquestador de confianza

En el framework CaMeL, el Privileged LLM (P-LLM) actúa como el orquestador de confianza, el componente responsable únicamente de interpretar la intención de alto nivel del usuario y traducirla en un plan ejecutable seguro. Su papel es análogo al de un meticuloso project manager que, tras entender el objetivo principal, redacta un workflow detallado sin distraerse con información externa potencialmente engañosa.

El P-LLM opera bajo una restricción crítica: solo procesa la consulta inicial del usuario, considerada de confianza. Este aislamiento es una piedra angular del modelo de seguridad de CaMeL. A diferencia de los LLMs convencionales que pueden procesar el prompt del usuario junto a diversas fuentes de datos externas (que podrían estar comprometidas), el P-LLM está protegido de cualquier entrada no confiable. Esto significa que el control flow, la secuencia de acciones que el agente está diseñado para realizar, se genera basándose únicamente en las instrucciones explícitas y verificadas del usuario.

La salida del P-LLM no es una acción directa, sino pseudo-código Python. Este código representa el plan operativo del agente, esbozando los pasos y las herramientas a usar para satisfacer la petición del usuario. Generando este control flow en un entorno controlado, libre de la influencia de datos potencialmente maliciosos, CaMeL previene de forma efectiva el control flow hijacking. Un atacante no puede inyectar instrucciones en el proceso de pensamiento del P-LLM para que el agente ejecute comandos no deseados, porque el P-LLM nunca ve las partes no confiables de la entrada que facilitarían ese ataque. Esta separación arquitectónica asegura la integridad y la previsibilidad del comportamiento del agente, manteniendo la alineación con la intención original y confiada del usuario.

El Quarantined LLM (Q-LLM) y la protección del data flow: manejar entradas no confiables de forma segura

Mientras el Privileged LLM (P-LLM) protege el control flow, CaMeL emplea el Quarantined LLM (Q-LLM) para gestionar los riesgos inherentes asociados a los datos no confiables. En los sistemas agénticos del mundo real, los LLMs interactúan con frecuencia con herramientas externas y reciben información de fuentes diversas como correos, páginas web y documentos, muchos de los cuales no pueden ser totalmente fiables. El Q-LLM está diseñado específicamente para procesar estas entradas potencialmente maliciosas sin comprometer el sistema.

La clave de la seguridad del Q-LLM reside en sus limitaciones deliberadas. A diferencia del P-LLM, al Q-LLM se le retiran todas las capacidades de tool-calling. Su único propósito es parsear datos no estructurados y no confiables hacia un formato estructurado que el sistema pueda usar después de forma segura. Por ejemplo, si un agente necesita extraer la dirección de correo de un destinatario del cuerpo de un email, el Q-LLM realizaría esa extracción. Sin embargo, no puede, por sí mismo, iniciar una acción como enviar un correo a esa dirección extraída.

Esto nos lleva al concepto crucial de Data Flow Protection, aplicado meticulosamente por el intérprete Python personalizado de CaMeL. A medida que el intérprete ejecuta el pseudo-código Python generado por el P-LLM, mantiene un sofisticado Data Flow Graph. Este grafo rastrea cuidadosamente el origen y la trazabilidad de cada pieza de dato dentro del sistema. Más importante aún, cada elemento de dato se etiqueta con capabilities, metadatos que definen su fuente, su nivel de confianza y las operaciones permisibles que pueden realizarse con él. Por ejemplo, una dirección de email extraída por el Q-LLM de un correo no confiable podría etiquetarse con una capability que indique que es 'no confiable' y que no puede usarse como destinatario para comunicaciones salientes sin un override explícito de política. En cambio, una dirección de una lista de contactos de confianza llevaría una capability 'trusted'.

Cuando se realiza una llamada a una herramienta, el intérprete personalizado comprueba rigurosamente las capabilities de todos los argumentos contra las políticas de seguridad definidas. Si una política dicta que una determinada acción (p. ej. enviar un correo) requiere una dirección de destinatario 'trusted' y la dirección suministrada solo lleva una capability 'no confiable', el intérprete bloqueará la acción. Este mecanismo previene de forma efectiva que los datos maliciosos se usen de formas no previstas, salvaguardando frente a exfiltración de datos, acciones no autorizadas y otras formas de manipulación del data flow comunes en los ataques de prompt injection. Combinando un Q-LLM limitado con un sistema robusto de seguimiento del data flow basado en capabilities, CaMeL garantiza que incluso las entradas no confiables se manejan dentro de un perímetro seguro.

CaMeL en acción: seguridad demostrable e implicaciones reales

La verdadera prueba de cualquier framework de seguridad reside en su efectividad práctica. CaMeL, como detalla el paper de DeepMind, ha sido evaluado con rigor, particularmente en benchmarks como AgentDojo. Los resultados subrayan una distinción crítica: aunque un sistema LLM sin defender pueda lograr una tasa bruta más alta de completado de tareas (p. ej. 84%), sigue siendo inherentemente vulnerable a los ataques de prompt injection. CaMeL, por su parte, resuelve con éxito el 77% de las tareas con seguridad demostrable.

¿Qué significa "seguridad demostrable" en este contexto? Significa un giro de las defensas probabilísticas, donde esperamos atrapar la mayoría de los ataques, a una garantía más determinista. El diseño arquitectónico de CaMeL, con su separación estricta de control y data flows y su enforcement basado en capabilities, proporciona una garantía firme de que ciertas clases de ataques de prompt injection sencillamente no pueden tener éxito. Es una diferencia profunda respecto a apoyarse en filtros heurísticos o en el reentrenamiento constante del modelo, que siempre van por detrás de las nuevas técnicas adversariales.

Esta ligera reducción en el completado bruto de tareas (del 84% al 77%) es un trade-off deliberado y aceptable a cambio de una seguridad mejorada. Refleja el rechazo del sistema a ejecutar acciones que violen sus políticas de seguridad, incluso si esas acciones, en un contexto benigno, podrían contribuir al completado de la tarea. Por ejemplo, si una prompt injection intenta exfiltrar datos manipulando una llamada a una herramienta, el intérprete de CaMeL bloqueará esa acción, garantizando la integridad de los datos a costa de no completar la subtarea maliciosa. Esta priorización de la seguridad por encima del completado de tareas no verificadas es crucial para desplegar LLMs en aplicaciones sensibles.

Las implicaciones reales de CaMeL son significativas. Para las empresas que construyen sistemas de IA agéntica que manejan información confidencial, interactúan con infraestructura crítica o toman decisiones autónomas, la seguridad demostrable no es solo una característica: es una necesidad. CaMeL ofrece un blueprint para desarrollar agentes impulsados por LLM que pueden operar de forma fiable y segura, incluso en entornos adversariales, fomentando una mayor confianza en los despliegues de IA avanzada.

Construir confianza en IA: la visión de NeuralTrust para un despliegue seguro de LLMs

La aparición de CaMeL marca un momento decisivo en la evolución de la seguridad de agentes. Subraya una verdad fundamental: para que la IA se integre realmente en sistemas críticos y se gane una confianza generalizada, la seguridad no puede ser una idea posterior. Debe tejerse en el tejido mismo de su diseño. El paso de defensas reactivas y probabilísticas a una seguridad proactiva y aplicada arquitectónicamente no es solo un ideal académico. Es un imperativo operativo para cualquier organización que despliegue agentes impulsados por LLM.

En NeuralTrust defendemos exactamente esta filosofía. Nuestra misión es empoderar a las empresas para aprovechar el poder transformador de la IA con una confianza inquebrantable en su seguridad y fiabilidad. Los principios que encarna CaMeL —la separación rigurosa de responsabilidades, el enforcement de la integridad de los flujos de control y datos, y el uso de capability-based security— son precisamente los principios que guían nuestro enfoque al construir soluciones de IA fiables. Reconocemos que el futuro de la IA depende de su capacidad para operar de forma segura, predecible y transparente, incluso ante ataques adversariales sofisticados.

Creemos que adoptar una mentalidad security-by-design, como ejemplifica CaMeL, es el único camino sostenible hacia adelante. Significa ir más allá de las correcciones superficiales e invertir en arquitecturas fundamentales que resistan inherentemente la manipulación. NeuralTrust proporciona la experiencia, las herramientas y la orientación estratégica necesarias para implementar estos patrones de seguridad robustos, ayudando a las organizaciones a navegar la complejidad del despliegue de AI Agents mientras se aseguran los más altos estándares de safety e integridad.

¿Estás listo para construir agentes de IA que no solo sean inteligentes, sino también inherentemente seguros y dignos de confianza? Descubre cómo NeuralTrust puede ayudarte a integrar paradigmas de seguridad de última generación, inspirados en innovaciones como CaMeL, en tus despliegues de IA agéntica. Trabaja con nosotros para transformar la promesa de la IA en una realidad segura y fiable.


Suscríbete a nuestra newsletter

Compartir

Únete a los líderes que aseguran el ecosistema de agentes

Solicita una demo