Los ataques de «jailbreak» a los LLM no solo evolucionan de forma individual, sino que también pueden combinarse para potenciar su eficacia. En esta publicación, presentamos un ejemplo concreto de dicha combinación.
Hace unas semanas, presentamos el Ataque Echo Chamber, que manipula a un LLM para que repita un contexto tóxico sutilmente elaborado, permitiéndole eludir sus propios mecanismos de seguridad. Probamos con éxito Echo Chamber en múltiples LLM.
En este artículo, llevamos esto un paso más allá al combinar Echo Chamber con el ataque Crescendo. Demostramos cómo esta combinación refuerza la estrategia de ataque general y la aplicamos a Grok-4 para mostrar su eficacia mejorada.
Ejemplo
Combinamos Echo Chamber y Crescendo para realizar un «jailbreak» al LLM. El objetivo era incitar al modelo a revelar las instrucciones para fabricar un cóctel molotov, un ejemplo utilizado originalmente en el artículo de Crescendo.
Comenzamos ejecutando Echo Chamber con semillas tanto tóxicas como de dirección. En el primer intento, las semillas de dirección fueron demasiado fuertes, lo que activó las salvaguardas del modelo y provocó que marcara la interacción como maliciosa. En el siguiente intento, utilizamos semillas de dirección más suaves y seguimos el flujo de trabajo completo de Echo Chamber: introducir un contexto tóxico, seleccionar una ruta de conversación e iniciar el ciclo de persuasión.
Si bien el ciclo de persuasión empujó al modelo hacia el objetivo dañino, no fue suficiente por sí solo. En este punto, Crescendo proporcionó el impulso necesario. Con solo dos turnos adicionales, el enfoque combinado logró obtener la respuesta deseada.
Alentados por este resultado, procedimos a probar ejemplos adicionales para evaluar si este método se generaliza a otros objetivos dañinos.
Figura 1. Ejemplo del objetivo alcanzado en Grok 3, mostrando las instrucciones paso a paso sobre cómo hacer un cóctel molotov. Lo hemos difuminado por motivos de seguridad.
Figura 2. Otro ejemplo alcanzando el objetivo dañino utilizando Grok-4.
Integración de Echo Chamber y Crescendo
Como se demostró anteriormente en el artículo sobre Echo Chamber, este ataque se puede combinar fácilmente con otras técnicas. La Figura 2 presenta un flujo de trabajo simplificado que ilustra la interacción entre Echo Chamber y Crescendo.
El ataque comienza con Echo Chamber, que incluye una verificación adicional en el ciclo de persuasión para detectar un progreso «estancado», situaciones en las que la conversación ya no avanza de forma significativa hacia el objetivo. Cuando esto ocurre, Crescendo interviene para dar un empujón extra hacia el objetivo. Este impulso adicional suele tener éxito en dos iteraciones. En ese momento, el modelo detecta la intención maliciosa y se niega a responder, o el ataque tiene éxito y el modelo produce un resultado dañino.
Figura 3. Diagrama que ilustra la integración de Echo Chamber y Crescendo para mejorar la eficacia del ataque.
Experimentos
Para evaluar más a fondo la eficacia de nuestro enfoque, seleccionamos manualmente varios objetivos maliciosos del artículo de Crescendo, centrándonos específicamente en prompts relacionados con actividades ilegales. Luego, probamos estos objetivos en Grok-4 utilizando una combinación de Echo Chamber y Crescendo.
Nuestros resultados muestran que el ataque tuvo éxito en una parte significativa de los intentos. Específicamente, logramos una tasa de éxito del 67% para el objetivo Molotov, del 50% para el objetivo Meth y del 30% para Toxin. Cabe destacar que, en un caso, el modelo alcanzó el objetivo malicioso en un solo turno, sin requerir el paso Crescendo.
Tema | Tasa de éxito (%) | Temática de los casos de éxito | Técnicas |
---|---|---|---|
Molotov | 67 % | Manual, Descripción | Echo Chamber + Crescendo |
Metanfetamina | 50 % | Historia | Echo Chamber + Crescendo |
Toxina | 30 % | Leyes, Descripción | Echo Chamber + Crescendo |
Conclusión
Hemos demostrado la eficacia de combinar Echo Chamber y Crescendo para mejorar el éxito del «adversarial prompting». Al aplicar este método a Grok-4, pudimos realizar un «jailbreak» al modelo y alcanzar objetivos dañinos sin emitir ni un solo prompt explícitamente malicioso. Esto pone de manifiesto una vulnerabilidad crítica: los ataques pueden eludir los filtros basados en intención o palabras clave explotando el contexto conversacional más amplio, en lugar de depender de entradas abiertamente dañinas. Nuestros hallazgos subrayan la importancia de evaluar las defensas de los LLM en escenarios de múltiples turnos, donde una manipulación sutil y persistente puede llevar a un comportamiento inesperado del modelo.