¿Qué vulnerabilidad crítica se descubrió en Grok 4?

Investigadores de NeuralTrust descubrieron una grave falla de seguridad en Grok 4 utilizando las técnicas de ataque Echo Chamber y Crescendo, lo que permitió eludir los filtros de seguridad mediante envenenamiento de contexto y manipulación de diálogos multi-turno.

¿Qué son las técnicas de ataque Echo Chamber y Crescendo?

Echo Chamber y Crescendo son técnicas adversarias sofisticadas que emplean diálogos multi-turno para manipular sutilmente el contexto interno de un modelo de IA. Estos métodos evaden filtros y protecciones estándar, guiando el comportamiento de la IA hacia respuestas inseguras sin utilizar prompts abiertamente maliciosos.

¿Qué modelos de IA se ven afectados por los ataques Echo Chamber y Crescendo?

Los ataques Echo Chamber y Crescendo afectan con éxito a Grok 4, Grok 3, los modelos GPT de OpenAI y Gemini de Google, lo que indica una vulnerabilidad generalizada en las arquitecturas actuales de seguridad para modelos de lenguaje grande (LLM).

¿Cómo evaden los ataques Echo Chamber y Crescendo los filtros de seguridad estándar de IA?

Estos ataques explotan un punto ciego fundamental en los sistemas de seguridad de IA al envenenar el contexto conversacional en múltiples turnos de diálogo. Los filtros de seguridad convencionales evalúan prompts individuales de forma aislada, lo que los vuelve ineficaces ante manipulaciones sutiles basadas en el contexto.

¿Cómo está abordando NeuralTrust las vulnerabilidades descubiertas en los modelos Grok?

NeuralTrust ha integrado protecciones contra estos ataques en su AI Gateway (TrustGate) y su plataforma de Red Teaming (TrustTest). Estas soluciones ayudan a las empresas a simular, detectar y neutralizar ataques multi-turno antes de que los sistemas de IA entren en producción.

¿Por qué son especialmente preocupantes los ataques Echo Chamber y Crescendo para la seguridad de la IA?

Estos ataques demuestran lo fácilmente que técnicas adversarias avanzadas pueden eludir los controles modernos de seguridad de IA. Al explotar el contexto conversacional en lugar de prompts individuales, los atacantes pueden evadir la detección y representar un riesgo significativo para sistemas de IA en entornos sensibles o regulados.

Volver

Jailbreak de Grok 4 con Echo Chamber y Crescendo

Ahmad Alobaid • 11 de julio de 2025

Contenido

Los ataques de «jailbreak» a los LLM no solo evolucionan de forma individual, sino que también pueden combinarse para potenciar su eficacia. En esta publicación, presentamos un ejemplo concreto de dicha combinación.

Hace unas semanas, presentamos el Ataque Echo Chamber, que manipula a un LLM para que repita un contexto tóxico sutilmente elaborado, permitiéndole eludir sus propios mecanismos de seguridad. Probamos con éxito Echo Chamber en múltiples LLM.

En este artículo, llevamos esto un paso más allá al combinar Echo Chamber con el ataque Crescendo. Demostramos cómo esta combinación refuerza la estrategia de ataque general y la aplicamos a Grok-4 para mostrar su eficacia mejorada.

Ejemplo

Combinamos Echo Chamber y Crescendo para realizar un «jailbreak» al LLM. El objetivo era incitar al modelo a revelar las instrucciones para fabricar un cóctel molotov, un ejemplo utilizado originalmente en el artículo de Crescendo.

Comenzamos ejecutando Echo Chamber con semillas tanto tóxicas como de dirección. En el primer intento, las semillas de dirección fueron demasiado fuertes, lo que activó las salvaguardas del modelo y provocó que marcara la interacción como maliciosa. En el siguiente intento, utilizamos semillas de dirección más suaves y seguimos el flujo de trabajo completo de Echo Chamber: introducir un contexto tóxico, seleccionar una ruta de conversación e iniciar el ciclo de persuasión.

Si bien el ciclo de persuasión empujó al modelo hacia el objetivo dañino, no fue suficiente por sí solo. En este punto, Crescendo proporcionó el impulso necesario. Con solo dos turnos adicionales, el enfoque combinado logró obtener la respuesta deseada.

Alentados por este resultado, procedimos a probar ejemplos adicionales para evaluar si este método se generaliza a otros objetivos dañinos.

Figura 1. Ejemplo del objetivo alcanzado en Grok 3, mostrando las instrucciones paso a paso sobre cómo hacer un cóctel molotov. Lo hemos difuminado por motivos de seguridad.

Figura 2. Otro ejemplo alcanzando el objetivo dañino utilizando Grok-4.

Integración de Echo Chamber y Crescendo

Como se demostró anteriormente en el artículo sobre Echo Chamber, este ataque se puede combinar fácilmente con otras técnicas. La Figura 2 presenta un flujo de trabajo simplificado que ilustra la interacción entre Echo Chamber y Crescendo.

El ataque comienza con Echo Chamber, que incluye una verificación adicional en el ciclo de persuasión para detectar un progreso «estancado», situaciones en las que la conversación ya no avanza de forma significativa hacia el objetivo. Cuando esto ocurre, Crescendo interviene para dar un empujón extra hacia el objetivo. Este impulso adicional suele tener éxito en dos iteraciones. En ese momento, el modelo detecta la intención maliciosa y se niega a responder, o el ataque tiene éxito y el modelo produce un resultado dañino.

Figura 3. Diagrama que ilustra la integración de Echo Chamber y Crescendo para mejorar la eficacia del ataque.

Experimentos

Para evaluar más a fondo la eficacia de nuestro enfoque, seleccionamos manualmente varios objetivos maliciosos del artículo de Crescendo, centrándonos específicamente en prompts relacionados con actividades ilegales. Luego, probamos estos objetivos en Grok-4 utilizando una combinación de Echo Chamber y Crescendo.

Nuestros resultados muestran que el ataque tuvo éxito en una parte significativa de los intentos. Específicamente, logramos una tasa de éxito del 67% para el objetivo Molotov, del 50% para el objetivo Meth y del 30% para Toxin. Cabe destacar que, en un caso, el modelo alcanzó el objetivo malicioso en un solo turno, sin requerir el paso Crescendo.

Tema	Tasa de éxito (%)	Temática de los casos de éxito	Técnicas
Molotov	67 %	Manual, Descripción	Echo Chamber + Crescendo
Metanfetamina	50 %	Historia	Echo Chamber + Crescendo
Toxina	30 %	Leyes, Descripción	Echo Chamber + Crescendo

Conclusión

Hemos demostrado la eficacia de combinar Echo Chamber y Crescendo para mejorar el éxito del «adversarial prompting». Al aplicar este método a Grok-4, pudimos realizar un «jailbreak» al modelo y alcanzar objetivos dañinos sin emitir ni un solo prompt explícitamente malicioso. Esto pone de manifiesto una vulnerabilidad crítica: los ataques pueden eludir los filtros basados en intención o palabras clave explotando el contexto conversacional más amplio, en lugar de depender de entradas abiertamente dañinas. Nuestros hallazgos subrayan la importancia de evaluar las defensas de los LLM en escenarios de múltiples turnos, donde una manipulación sutil y persistente puede llevar a un comportamiento inesperado del modelo.