Cómo un agente de IA hackeó McKinsey y expuso 46 millones de mensajes

El reciente incidente de seguridad que afectó a Lilli, la plataforma interna de IA de McKinsey & Company, marca un momento decisivo en el panorama en evolución de la seguridad de la inteligencia artificial. No fue una brecha orquestada por un actor humano sofisticado a lo largo de semanas o meses. En su lugar, un agente de IA ofensivo y autónomo, desarrollado por la firma de seguridad CodeWall, logró acceso completo de lectura y escritura a la base de datos de producción de Lilli en apenas dos horas.

Este incidente trasciende una brecha de datos típica. Subraya un cambio fundamental en la ciberguerra, donde la velocidad y la autonomía de los agentes de IA están redefiniendo el modelo de amenazas. McKinsey, líder global con inversiones sustanciales en tecnología y seguridad, encontró su sistema interno de IA vulnerable a un vector de ataque clásico, la SQL injection, pero explotado con una eficiencia sin precedentes por un agente de IA. Las implicaciones son profundas, sugiriendo que incluso las defensas empresariales robustas pueden tener dificultades frente al sondeo incansable, a velocidad de máquina, de adversarios de IA avanzados.

El rápido compromiso de Lilli, una plataforma utilizada por más de 40.000 empleados de McKinsey para tareas críticas como análisis de documentos y discusiones estratégicas, sirve de duro recordatorio. Pone de relieve que la integración de la IA en las operaciones empresariales introduce nuevos retos de seguridad complejos que exigen una reevaluación de las estrategias de defensa tradicionales. La era de IA contra IA en ciberseguridad no es un escenario lejano: está aquí, demostrablemente, y su ritmo se acelera.

La anatomía de una intrusión autónoma

El éxito del agente de CodeWall contra la plataforma Lilli de McKinsey no se debió a una vulnerabilidad exótica nunca vista. Más bien, fue la explotación sofisticada de un fallo común, ejecutada con precisión y velocidad similares a las de una máquina. El punto de entrada inicial fue el descubrimiento de documentación de API expuesta públicamente, que, entre cientos de endpoints, revelaba 22 que no requerían autenticación. Este es un descuido crítico en cualquier sistema empresarial, proporcionando una puerta abierta para el reconocimiento.

El agente identificó después una vulnerabilidad clásica de SQL injection. Este fallo concreto residía en cómo Lilli procesaba las consultas de búsqueda del usuario: aunque los valores se parametrizaban de forma segura, las claves JSON, los nombres de los campos, se concatenaban directamente en las consultas SQL. Cuando el agente observó que esas claves JSON se reflejaban literalmente en los mensajes de error de la base de datos, reconoció una oportunidad de SQL injection que las herramientas de seguridad tradicionales basadas en firmas suelen pasar por alto. Esto permitió al agente realizar una serie de iteraciones a ciegas, cada una extrayendo más información sobre la estructura de la base de datos, hasta que empezaron a fluir datos de producción en vivo. Este enfoque metódico y adaptativo, encadenando problemas aparentemente menores, demuestra el poder de los agentes autónomos para descubrir y explotar vulnerabilidades que esquivan las defensas convencionales.

La vulnerabilidad del prompt layer

Aunque la exfiltración de 46,5 millones de mensajes de chat, 728.000 archivos y 57.000 cuentas de usuario es indudablemente grave, el aspecto más insidioso de la brecha de Lilli reside en el compromiso de su "prompt layer". Los system prompts —las instrucciones fundacionales que dictan cómo se comporta la IA, sus guardrails y sus métodos de citado— estaban almacenados en la misma base de datos a la que el agente de CodeWall accedió con privilegios de escritura. Esto significaba que un atacante podía reescribir silenciosamente esos prompts sin ningún despliegue de código ni cambio de sistema, simplemente emitiendo una sentencia UPDATE a través de una única llamada HTTP.

Las implicaciones de tal compromiso son de gran alcance y potencialmente catastróficas. Imagina un escenario en el que se instruye sutilmente a la IA para proporcionar "consejo envenenado", alterando modelos financieros, recomendaciones estratégicas o evaluaciones de riesgo. Los consultores de McKinsey, confiando en Lilli como herramienta interna de confianza, integrarían inconscientemente esas salidas manipuladas en su trabajo de cara al cliente. Además, un atacante podría instruir a la IA para exfiltrar información confidencial incrustándola en respuestas aparentemente inocuas, o incluso eliminar guardrails de seguridad, haciendo que la IA divulgue datos internos o ignore los controles de acceso. Esta persistencia silenciosa, que no deja rastros en logs ni cambios en archivos, hace que los ataques al prompt layer sean excepcionalmente difíciles de detectar, destacando los prompts como los nuevos activos "Crown Jewel" de la era de la IA.

Por qué los escáneres tradicionales fallaron el test

Uno de los aspectos más sorprendentes de la brecha de Lilli es que la vulnerabilidad explotada, una SQL injection, está lejos de ser novedosa. Es un fallo de seguridad de hace décadas, bien comprendido y normalmente detectable por las herramientas modernas de seguridad. Sin embargo, McKinsey, una firma con inversiones significativas en seguridad y un equipo tecnológico sofisticado, tuvo Lilli ejecutándose en producción durante más de dos años sin detectar esa debilidad crítica. Esto plantea una pregunta crucial: ¿por qué fallaron los escáneres tradicionales y las auditorías internas de seguridad?

La respuesta reside en la diferencia fundamental entre evaluaciones de seguridad estáticas y basadas en reglas y la naturaleza dinámica y adaptativa de un agente de IA ofensivo autónomo. Los escáneres tradicionales se apoyan a menudo en firmas predefinidas y checklists, diseñados para identificar patrones conocidos de vulnerabilidades. Son excelentes detectando malas configuraciones comunes o fallos obvios. Sin embargo, el agente de CodeWall no siguió una checklist. Mapeó la superficie de ataque, sondeó debilidades y, lo más importante, encadenó observaciones aparentemente menores —como las claves JSON reflejadas en mensajes de error— para construir una ruta de ataque compleja. Esta capacidad para adaptarse, aprender y escalar a velocidad de máquina permite a los agentes de IA imitar las tácticas creativas y persistentes de un atacante humano altamente capaz, superando las capacidades de las herramientas de seguridad convencionales.

Asegurando el futuro: tratar los prompts como Crown Jewels

El incidente Lilli de McKinsey sirve como llamada de atención crítica para las organizaciones que despliegan sistemas de IA. La era de asegurar simplemente código, servidores y redes es insuficiente. Ahora debemos ampliar nuestros paradigmas de seguridad para abarcar el "prompt layer" —las instrucciones que gobiernan el comportamiento de la IA— y tratarlas con la misma vigilancia, si no mayor, que otros activos críticos. Esto requiere un enfoque multifacético sobre la seguridad y la gobernanza de la IA.

En primer lugar, son primordiales unos controles de acceso y versionado robustos para los prompts. Igual que rastreamos cambios en bases de código críticas, las modificaciones de los system prompts deben registrarse, revisarse y protegerse. En segundo lugar, la monitorización de integridad es esencial para detectar alteraciones no autorizadas de los prompts, asegurando que la IA siga operando como se pretende. En tercer lugar, las organizaciones deben adoptar el red-teaming continuo impulsado por IA. Apoyarse únicamente en pentesting liderado por humanos o en escáneres tradicionales ya no es adecuado frente a adversarios de IA autónomos. Los agentes ofensivos de IA pueden proporcionar una evaluación dinámica y en tiempo real de las vulnerabilidades, identificando cadenas de ataque complejas que los equipos humanos o las herramientas estáticas pueden pasar por alto.

En última instancia, la brecha de Lilli destaca que la seguridad en IA no es meramente un reto técnico, sino un imperativo estratégico. A medida que los agentes de IA se vuelven más sofisticados y omnipresentes, la capacidad de asegurar las propias instrucciones que los guían determinará la fiabilidad y la resiliencia de nuestras empresas impulsadas por IA. Las "Crown Jewels" de la era de la IA ya no son solo los datos: son los prompts que moldean la inteligencia y el comportamiento de la IA.

Cómo un agente de IA hackeó McKinsey y expuso 46 millones de mensajes

La anatomía de una intrusión autónoma

La vulnerabilidad del prompt layer

Por qué los escáneres tradicionales fallaron el test

Asegurando el futuro: tratar los prompts como Crown Jewels

Suscríbete a nuestra newsletter

Únete a los líderes que aseguran el ecosistema de agentesÚnete a los líderes que aseguran el ecosistema de agentes