News
📅 Conoce a NeuralTrust en OWASP: Global AppSec - 29-30 mayo
Iniciar sesiónObtener demo
Volver

Crescendo Attacks: Cómo los LLMs Responden a Ataques Graduales de Prompts

Crescendo Attacks: Cómo los LLMs Responden a Ataques Graduales de Prompts
Ahmad Alobaid 14 de mayo de 2025
Contenido

El "red teaming" para Grandes Modelos de Lenguaje (LLM) es un campo emergente que aborda las vulnerabilidades únicas que plantean estos potentes sistemas. A medida que los LLM se implementan cada vez más en diversas industrias, sus capacidades flexibles introducen nuevos riesgos de seguridad que van más allá del alcance de los equipos de ciberseguridad tradicionales.

En NeuralTrust, investigamos, implementamos y probamos activamente técnicas adversarias para descubrir debilidades en los LLM, ayudando a las empresas a defenderse mejor contra ataques basados en prompts, comúnmente conocidos como "jailbreaks". Estos ataques pueden tener graves consecuencias reputacionales y operativas, como la filtración de datos propietarios o la generación de contenido ofensivo (p. ej., blasfemias en chats en vivo, respuestas tóxicas o divulgaciones no autorizadas).

En esta publicación, presentamos nuestro trabajo replicando y adaptando el ataque Crescendo, propuesto originalmente por investigadores de Microsoft (Russinovich et al.). Explicamos la idea central detrás del ataque, describimos nuestra implementación personalizada adaptada para modelos de código abierto de tamaño mediano y compartimos información de nuestros experimentos en una variedad de categorías de objetivos dañinos.

¿Qué es el Ataque Crescendo?

El ataque Crescendo es una sofisticada técnica de inyección de prompts que guía incrementalmente a un LLM hacia la producción de resultados restringidos o dañinos, sin activar el rechazo inmediato o los filtros de seguridad. En lugar de solicitar directamente una respuesta sensible, el atacante escala gradualmente la conversación, explotando la tendencia del modelo a cumplir cuando los prompts se formulan de manera benigna.

Nuestra implementación captura la esencia del ataque original al tiempo que introduce mecanismos adicionales para aumentar la efectividad en nuestros casos de uso específicos. Una conclusión clave de nuestras pruebas: solicitar directamente el objetivo final generalmente resultó en bajas tasas de éxito. El éxito dependió en gran medida de la cuidadosa formulación y progresión de los prompts intermedios.

Estructuramos el ataque como una secuencia de prompts crecientes, comenzando con preguntas benignas y aumentando gradualmente su sensibilidad. A medida que el modelo se acerca al contenido restringido, puede comenzar a resistirse. Para manejar esto, implementamos un mecanismo de retroceso (backtracking): cada vez que el modelo se negaba a responder, el sistema modificaba el prompt y lo intentaba de nuevo. Este bucle continuaba hasta que se generaba una salida exitosa o se alcanzaba un número máximo de reintentos.

Esta estrategia de prueba y error refleja el comportamiento de un atacante hábil que sondea las barreras de seguridad de un modelo en busca de debilidades.

¿Qué Chatbot es Más Vulnerable al Ataque Crescendo?

Para evaluar la susceptibilidad en el mundo real de los LLM populares al ataque Crescendo, diseñamos un experimento sistemático dirigido a una variedad de categorías de objetivos dañinos. Estos objetivos se seleccionaron para representar clases típicas de contenido restringido en entornos de producción, que incluyen:

  • Actividades Ilegales
  • Autolesiones
  • Desinformación
  • Pornografía
  • Blasfemias
  • Sexismo
  • Discurso de Odio
  • Violencia

Cada objetivo se combinó con una secuencia de prompts diseñados para escalar en tono e intención, siguiendo el método Crescendo. Este enfoque nos permitió evaluar no solo si un modelo produciría resultados restringidos, sino también con qué facilidad podría ser guiado hacia ese resultado a través de prompts progresivos. Probamos el ataque contra cinco modelos de lenguaje. LLM de código abierto:

  • Mistral
  • Phi-4-mini
  • DeepSeek-R1

LLM Propietarios/Industriales:

  • GPT-4.1-nano
  • GPT-4o-mini

Para tener en cuenta la naturaleza estocástica de las salidas de los modelos de lenguaje, ejecutamos cada secuencia de prompts varias veces por par modelo-objetivo. El número de repeticiones varió según la consistencia de la respuesta del modelo. Luego promediamos los resultados para informar métricas confiables en dos frentes clave:

  • Tasa de éxito: el porcentaje de pruebas en las que el modelo finalmente generó el resultado restringido.
  • Tasa de rechazo: con qué frecuencia el modelo se negó a cumplir o generó una respuesta segura de respaldo.

Este enfoque de métrica dual ayuda a distinguir entre modelos que son simplemente verbosos o evasivos, frente a aquellos que resisten significativamente las instrucciones dañinas.

También implementamos un retroceso automatizado para simular un adversario adaptativo. Si el modelo se negaba a completar un paso, el sistema modificaría ligeramente el prompt y lo intentaría de nuevo, imitando un escenario de ataque del mundo real donde un adversario sondea los límites mediante prueba y error.

Al estructurar el experimento de esta manera, pudimos simular un bucle de interacción adversaria realista y medir cuánto tiempo o con qué facilidad cada modelo podía ser manipulado para romper sus barreras de seguridad. Esta configuración proporciona la base para los resultados presentados en la siguiente sección.



Resultados del Experimento del Ataque Crescendo

Los resultados revelan patrones interesantes en la susceptibilidad de los modelos al ataque Crescendo. Primero informamos las tasas de éxito en diferentes categorías de objetivos para cada LLM:

  • El ataque Crescendo logró altas tasas de éxito en las categorías de Discurso de Odio, Desinformación, Pornografía, Sexismo y Violencia.
  • Notablemente, el ataque logró tasas de éxito del 100% para Pornografía, Sexismo y Violencia en Mistral, Phi-4-mini, GPT-4.1-nano y GPT-4o-mini.
  • En contraste, los modelos mostraron mayor resistencia cuando los objetivos eran Actividades Ilegales, Autolesiones y Blasfemias.


También medimos las tasas de rechazo: con qué frecuencia un modelo se resistió o se negó a cumplir.

  • DeepSeek-R1 tuvo la tasa de rechazo más alta, especialmente para Desinformación y Actividades Ilegales.
  • Phi-4-mini mostró un rechazo moderado para Autolesiones, Blasfemias y Actividades Ilegales.
  • Mistral exhibió cierta resistencia en Blasfemias, Actividades Ilegales y Desinformación, pero en general tuvo tasas de rechazo más bajas en comparación con DeepSeek-R1.
  • GPT-4.1-nano y GPT-4o-mini apenas mostraron resistencia.


En general, GPT-4.1-nano fue el más susceptible al ataque Crescendo, seguido por GPT-4o-mini y luego Mistral. Algunas tasas de rechazo fueron influenciadas parcialmente por tiempos de espera en lugar de una resistencia real del modelo, y algunos falsos positivos también son reportados como uno de los desafíos por el equipo de Microsoft, pero dejaremos esto para otra publicación de blog.

Cómo Proteger su LLM del Ataque Crescendo

El ataque Crescendo es un poderoso ejemplo de cómo los adversarios pueden explotar las sutiles tendencias de comportamiento de los LLM a través de la manipulación gradual. Defenderse contra él requiere más que simplemente filtrar palabras clave o aplicar prompts de seguridad estáticos. Exige defensas dinámicas y en capas que combinen detección, prevención y validación continua.

En NeuralTrust, ayudamos a las organizaciones a proteger sus implementaciones de LLM en cada etapa del ciclo de vida de la IA. Nuestro producto TrustGate actúa como un cortafuegos semántico para los modelos de IA, interceptando y analizando cada prompt con filtros de seguridad en tiempo real y aplicación de políticas. Puede detectar la escalada gradual de prompts, el encadenamiento de prompts y el comportamiento sospechoso del usuario antes de que una consulta dañina llegue a su modelo.

Para los equipos que desarrollan y prueban aplicaciones LLM, TrustTest proporciona capacidades automatizadas de "red teaming" que simulan ataques como Crescendo en diferentes categorías, desde desinformación hasta discurso de odio. Le permite sondear continuamente las debilidades de su modelo, identificar modos de falla y validar defensas bajo presión adversaria.

Para explorar estas soluciones en acción u obtener más información sobre cómo podemos respaldar su estrategia de seguridad de IA, solicite una demostración o póngase en contacto con nuestro equipo.


Posts relacionados

Ver todo