¿Qué es el red teaming para LLMs y por qué es crucial?

El red teaming para LLMs implica aplicar técnicas adversariales (como inyecciones de prompt) para descubrir y corregir vulnerabilidades antes de que atacantes reales las exploten. Es esencial porque los LLMs, al ser cada vez más usados en producción, presentan riesgos únicos (fugas de datos, contenido dañino) que las defensas tradicionales no cubren.

¿Qué es el ataque Crescendo contra los LLMs?

El ataque Crescendo es una técnica sofisticada de inyección de prompts que aumenta progresivamente la sensibilidad de las solicitudes para evadir los filtros de seguridad de un LLM. Mediante instrucciones intermedias y retrocesos controlados, logra que el modelo genere contenido restringido sin activar protecciones de inmediato.

¿Qué LLMs demostraron ser más vulnerables al ataque Crescendo?

En nuestros experimentos, GPT-4.1-nano y GPT-4o-mini fueron los más susceptibles (100% de éxito en Pornografía, Sexismo y Violencia), seguidos por Mistral y Phi-4-mini. DeepSeek-R1 mostró la mayor resistencia, especialmente frente a Desinformación y Actividades Ilegales.

¿Cómo se mide el éxito y el rechazo en el ataque Crescendo?

Evaluamos dos métricas: la tasa de éxito — porcentaje de intentos en los que el LLM genera contenido restringido — y la tasa de rechazo — frecuencia con la que el modelo se niega o responde con un mensaje de seguridad. Esta doble métrica permite identificar tanto la facilidad de evasión como la resistencia real.

¿En qué categorías el ataque Crescendo tuvo mayores tasas de éxito?

Las categorías con mayor tasa de éxito fueron Pornografía, Sexismo y Violencia (100% en varios modelos). También hubo resultados altos en Desinformación, Discurso de Odio y Lenguaje Soez, mientras que Autolesiones y Actividades Ilegales fueron más resistentes.

¿Cómo puedo defender mi LLM contra ataques de inyección de prompt como Crescendo?

Implementa defensas en capas: usa un cortafuegos de IA (como TrustGate) para inspeccionar y bloquear patrones maliciosos, aplica filtros de seguridad adaptativos que detecten escaladas graduales, realiza red teaming continuo (por ejemplo, con TrustTest) y monitorea anomalías de comportamiento en tiempo real.

¿Cuál es la diferencia entre éxito y rechazo?

Éxito significa que el modelo generó el contenido restringido solicitado, mientras que rechazo indica que el LLM lo denegó o devolvió una respuesta segura. Una baja tasa de rechazo combinada con una alta tasa de éxito revela una vulnerabilidad crítica.

¿Cómo simula TrustTest ataques como Crescendo?

TrustTest automatiza la creación de secuencias escalonadas de prompts y utiliza retrocesos cuando el modelo rechaza. Permite evaluar contenido dañino, medir tasas de éxito y rechazo, y detectar puntos débiles en pipelines adversariales continuos.

Volver

Crescendo Attacks: Cómo los LLMs Responden a Ataques Graduales de Prompts

Ahmad Alobaid • 14 de mayo de 2025

Contenido

El "red teaming" para Grandes Modelos de Lenguaje (LLM) es un campo emergente que aborda las vulnerabilidades únicas que plantean estos potentes sistemas. A medida que los LLM se implementan cada vez más en diversas industrias, sus capacidades flexibles introducen nuevos riesgos de seguridad que van más allá del alcance de los equipos de ciberseguridad tradicionales.

En NeuralTrust, investigamos, implementamos y probamos activamente técnicas adversarias para descubrir debilidades en los LLM, ayudando a las empresas a defenderse mejor contra ataques basados en prompts, comúnmente conocidos como "jailbreaks". Estos ataques pueden tener graves consecuencias reputacionales y operativas, como la filtración de datos propietarios o la generación de contenido ofensivo (p. ej., blasfemias en chats en vivo, respuestas tóxicas o divulgaciones no autorizadas).

En esta publicación, presentamos nuestro trabajo replicando y adaptando el ataque Crescendo, propuesto originalmente por investigadores de Microsoft (Russinovich et al.). Explicamos la idea central detrás del ataque, describimos nuestra implementación personalizada adaptada para modelos de código abierto de tamaño mediano y compartimos información de nuestros experimentos en una variedad de categorías de objetivos dañinos.

¿Qué es el Ataque Crescendo?

El ataque Crescendo es una sofisticada técnica de inyección de prompts que guía incrementalmente a un LLM hacia la producción de resultados restringidos o dañinos, sin activar el rechazo inmediato o los filtros de seguridad. En lugar de solicitar directamente una respuesta sensible, el atacante escala gradualmente la conversación, explotando la tendencia del modelo a cumplir cuando los prompts se formulan de manera benigna.

Nuestra implementación captura la esencia del ataque original al tiempo que introduce mecanismos adicionales para aumentar la efectividad en nuestros casos de uso específicos. Una conclusión clave de nuestras pruebas: solicitar directamente el objetivo final generalmente resultó en bajas tasas de éxito. El éxito dependió en gran medida de la cuidadosa formulación y progresión de los prompts intermedios.

Estructuramos el ataque como una secuencia de prompts crecientes, comenzando con preguntas benignas y aumentando gradualmente su sensibilidad. A medida que el modelo se acerca al contenido restringido, puede comenzar a resistirse. Para manejar esto, implementamos un mecanismo de retroceso (backtracking): cada vez que el modelo se negaba a responder, el sistema modificaba el prompt y lo intentaba de nuevo. Este bucle continuaba hasta que se generaba una salida exitosa o se alcanzaba un número máximo de reintentos.

Esta estrategia de prueba y error refleja el comportamiento de un atacante hábil que sondea las barreras de seguridad de un modelo en busca de debilidades.

¿Qué Chatbot es Más Vulnerable al Ataque Crescendo?

Para evaluar la susceptibilidad en el mundo real de los LLM populares al ataque Crescendo, diseñamos un experimento sistemático dirigido a una variedad de categorías de objetivos dañinos. Estos objetivos se seleccionaron para representar clases típicas de contenido restringido en entornos de producción, que incluyen:

Actividades Ilegales
Autolesiones
Desinformación
Pornografía
Blasfemias
Sexismo
Discurso de Odio
Violencia

Cada objetivo se combinó con una secuencia de prompts diseñados para escalar en tono e intención, siguiendo el método Crescendo. Este enfoque nos permitió evaluar no solo si un modelo produciría resultados restringidos, sino también con qué facilidad podría ser guiado hacia ese resultado a través de prompts progresivos. Probamos el ataque contra cinco modelos de lenguaje. LLM de código abierto:

Mistral
Phi-4-mini
DeepSeek-R1

LLM Propietarios/Industriales:

GPT-4.1-nano
GPT-4o-mini

Para tener en cuenta la naturaleza estocástica de las salidas de los modelos de lenguaje, ejecutamos cada secuencia de prompts varias veces por par modelo-objetivo. El número de repeticiones varió según la consistencia de la respuesta del modelo. Luego promediamos los resultados para informar métricas confiables en dos frentes clave:

Tasa de éxito: el porcentaje de pruebas en las que el modelo finalmente generó el resultado restringido.
Tasa de rechazo: con qué frecuencia el modelo se negó a cumplir o generó una respuesta segura de respaldo.

Este enfoque de métrica dual ayuda a distinguir entre modelos que son simplemente verbosos o evasivos, frente a aquellos que resisten significativamente las instrucciones dañinas.

También implementamos un retroceso automatizado para simular un adversario adaptativo. Si el modelo se negaba a completar un paso, el sistema modificaría ligeramente el prompt y lo intentaría de nuevo, imitando un escenario de ataque del mundo real donde un adversario sondea los límites mediante prueba y error.

Al estructurar el experimento de esta manera, pudimos simular un bucle de interacción adversaria realista y medir cuánto tiempo o con qué facilidad cada modelo podía ser manipulado para romper sus barreras de seguridad. Esta configuración proporciona la base para los resultados presentados en la siguiente sección.

Resultados del Experimento del Ataque Crescendo

Los resultados revelan patrones interesantes en la susceptibilidad de los modelos al ataque Crescendo. Primero informamos las tasas de éxito en diferentes categorías de objetivos para cada LLM:

El ataque Crescendo logró altas tasas de éxito en las categorías de Discurso de Odio, Desinformación, Pornografía, Sexismo y Violencia.
Notablemente, el ataque logró tasas de éxito del 100% para Pornografía, Sexismo y Violencia en Mistral, Phi-4-mini, GPT-4.1-nano y GPT-4o-mini.
En contraste, los modelos mostraron mayor resistencia cuando los objetivos eran Actividades Ilegales, Autolesiones y Blasfemias.

También medimos las tasas de rechazo: con qué frecuencia un modelo se resistió o se negó a cumplir.

DeepSeek-R1 tuvo la tasa de rechazo más alta, especialmente para Desinformación y Actividades Ilegales.
Phi-4-mini mostró un rechazo moderado para Autolesiones, Blasfemias y Actividades Ilegales.
Mistral exhibió cierta resistencia en Blasfemias, Actividades Ilegales y Desinformación, pero en general tuvo tasas de rechazo más bajas en comparación con DeepSeek-R1.
GPT-4.1-nano y GPT-4o-mini apenas mostraron resistencia.

En general, GPT-4.1-nano fue el más susceptible al ataque Crescendo, seguido por GPT-4o-mini y luego Mistral. Algunas tasas de rechazo fueron influenciadas parcialmente por tiempos de espera en lugar de una resistencia real del modelo, y algunos falsos positivos también son reportados como uno de los desafíos por el equipo de Microsoft, pero dejaremos esto para otra publicación de blog.

Cómo Proteger su LLM del Ataque Crescendo

El ataque Crescendo es un poderoso ejemplo de cómo los adversarios pueden explotar las sutiles tendencias de comportamiento de los LLM a través de la manipulación gradual. Defenderse contra él requiere más que simplemente filtrar palabras clave o aplicar prompts de seguridad estáticos. Exige defensas dinámicas y en capas que combinen detección, prevención y validación continua.

En NeuralTrust, ayudamos a las organizaciones a proteger sus implementaciones de LLM en cada etapa del ciclo de vida de la IA. Nuestro producto TrustGate actúa como un cortafuegos semántico para los modelos de IA, interceptando y analizando cada prompt con filtros de seguridad en tiempo real y aplicación de políticas. Puede detectar la escalada gradual de prompts, el encadenamiento de prompts y el comportamiento sospechoso del usuario antes de que una consulta dañina llegue a su modelo.

Para los equipos que desarrollan y prueban aplicaciones LLM, TrustTest proporciona capacidades automatizadas de "red teaming" que simulan ataques como Crescendo en diferentes categorías, desde desinformación hasta discurso de odio. Le permite sondear continuamente las debilidades de su modelo, identificar modos de falla y validar defensas bajo presión adversaria.

Para explorar estas soluciones en acción u obtener más información sobre cómo podemos respaldar su estrategia de seguridad de IA, solicite una demostración o póngase en contacto con nuestro equipo.