En este análisis en profundidad realizamos un benchmark de las principales soluciones de detección de jailbreak para LLMs usando tanto un dataset privado del mundo real con prompts de ataque prácticos como benchmarks públicos consolidados. Compararemos Amazon Bedrock, Azure y NeuralTrust en métricas clave: precisión, F1-score y velocidad de ejecución. De esta manera revelaremos qué firewall ofrece la protección más fiable y en tiempo real frente a los intentos de jailbreak más comunes.
Entender el jailbreak en LLMs
Un jailbreak, en el contexto de los grandes modelos de lenguaje (LLMs), se refiere a los intentos de saltarse o eludir las medidas de seguridad y las restricciones de contenido implementadas en estos modelos. Estos intentos pueden adoptar distintas formas, entre ellas:
- Prompt engineering para obtener contenido restringido
- Escenarios de role-playing que incitan a salidas dañinas
- Manipulación de la ventana de contexto del modelo
- Explotación de vulnerabilidades del modelo mediante entradas cuidadosamente diseñadas
Visión general del dataset
Dataset privado
Nuestro dataset privado se compone de ejemplos cuidadosamente seleccionados que contienen:
- Tamaño total: 400 ejemplos
- Distribución equilibrada entre prompts de jailbreak (200) y no-jailbreak (200)
- Foco en intentos de jailbreak simples y prácticos que usaría un usuario no experto
- Contiene prompts directos que intentan saltarse las restricciones del LLM
- Los ejemplos son más representativos de escenarios de ataque reales
El dataset privado se diferencia del público en su foco en intentos de jailbreak prácticos y simples. Mientras que el dataset público contiene prompts de jailbreak complejos y sofisticados que a menudo implican escenarios de role-playing elaborados o instrucciones multietapa, nuestro dataset privado se centra en intentos más sencillos y directos que un no experto podría usar para saltarse las restricciones del LLM. Esto hace que el dataset privado sea especialmente valioso para evaluar cómo de bien los modelos detectan intentos de jailbreak prácticos del mundo real.
Ejemplo de prompt de jailbreak del dataset privado:
Ejemplo de prompt no-jailbreak:
Dataset público
Nuestro benchmark incorpora datasets públicamente disponibles que han sido cuidadosamente procesados y combinados:
1. JailbreakBench/JBB-Behaviors: contiene una colección completa de prompts y comportamientos de jailbreak
- Se han muestreado 200 ejemplos de jailbreak.
2. GuardrailsAI/detect-jailbreak: proporciona ejemplos etiquetados adicionales de intentos de jailbreak
- Se han muestreado 100 ejemplos de jailbreak y 300 de no-jailbreak.
Los datasets públicos contienen intentos de jailbreak más complejos y sofisticados, que a menudo implican:
- Escenarios de role-playing elaborados
- Instrucciones multietapa
- Prompt engineering complejo
- Técnicas avanzadas de manipulación
Ejemplo de prompt de jailbreak complejo del dataset público:
Ejemplo de prompt no-jailbreak:
Los datasets públicos se procesan con el siguiente código:
Los datasets públicos se procesan para garantizar:
- Distribución equilibrada de ejemplos de jailbreak y no-jailbreak
- Eliminación de duplicados y entradas de baja calidad
- Formato de etiquetado estandarizado
- Formato de prompt consistente
Resultados del benchmark
Rendimiento sobre el dataset privado
La evaluación de nuestro dataset privado muestra las siguientes métricas de rendimiento:
| Modelo | Precisión | F1-Score |
|---|---|---|
| Amazon Bedrock | 0.615 | 0.296 |
| Azure | 0.623 | 0.319 |
| NeuralTrust | 0.908 | 0.897 |

Rendimiento sobre el dataset público
La evaluación muestra las siguientes métricas de rendimiento entre los distintos modelos:
| Modelo | Precisión | F1 Score | Recall | Precision |
|---|---|---|---|---|
| Azure | 0.610 | 0.510 | 0.407 | 0.685 |
| Bedrock | 0.472 | 0.460 | 0.450 | 0.470 |
| NeuralTrust | 0.625 | 0.631 | 0.640 | 0.621 |

Comparativa de tiempos de ejecución
El análisis de tiempos de ejecución se realizó sobre una instancia Google Vertex e2-standard-4 (4 vCPUs, 16 GB RAM) y revela los siguientes tiempos medios de procesamiento:
| Modelo | Tiempo medio de ejecución (segundos) |
|---|---|
| Amazon Bedrock | 0.276 |
| Azure | 0.263 |
| NeuralTrust | 0.077 |
![]() |
Análisis del trade-off: la ventaja de rendimiento de NeuralTrust
Trade-off precisión vs. velocidad
El Jailbreak Firewall de NeuralTrust demuestra una clara ventaja tanto en precisión como en velocidad de ejecución sobre el dataset privado, que está diseñado para reflejar intentos de jailbreak prácticos del mundo real:
1.Extensibilidad y alcance del prompt
- Las soluciones de Azure y Bedrock no son extensibles y rinden mal frente a ataques de jailbreak más pequeños y sencillos
- El modelo de detección de NeuralTrust destaca tanto con prompts largos como cortos, lo que lo hace adecuado para un abanico más amplio de escenarios de ataque
- Esta cobertura más amplia es crucial, ya que los atacantes suelen empezar con prompts sencillos antes de intentar ataques más complejos
2. Protección en entornos de producción
- En entornos de producción, la primera línea de defensa debe detectar de forma efectiva los intentos de jailbreak sencillos
- Los atacantes normalmente empiezan con prompts básicos antes de escalar a métodos más sofisticados
- El sólido rendimiento de NeuralTrust en ataques sencillos proporciona una protección esencial de primera capa
3. Precisión y F1-Score superiores
- NeuralTrust alcanza la mayor precisión (0.908) y F1-Score (0.897) entre todas las soluciones evaluadas.
- En contraste, Azure y Amazon Bedrock obtienen precisiones mucho menores (0.623 y 0.615 respectivamente) y F1-Scores (0.319 y 0.296 respectivamente).
4. Velocidad de ejecución
- NeuralTrust también entrega el tiempo medio de ejecución más rápido (0.085 segundos), lo que lo hace altamente adecuado para aplicaciones en tiempo real.
- Tanto Azure como Bedrock son significativamente más lentos (0.281 y 0.291 segundos respectivamente).
5. Implicaciones prácticas
- La combinación de alta precisión y baja latencia significa que NeuralTrust puede detectar de forma fiable los intentos de jailbreak sin introducir retrasos, lo cual es crítico para entornos de producción.
- El foco del dataset privado en jailbreaks simples y prácticos resalta aún más la efectividad real de NeuralTrust, ya que supera a sus competidores en los ataques con más probabilidades de aparecer fuera de entornos de investigación.
Ventaja comparativa
Frente a otras soluciones:
- vs. Azure y Bedrock: NeuralTrust los supera en precisión, F1-Score y velocidad sobre el dataset privado. Esto demuestra una ventaja clara para despliegues prácticos del mundo real.
- vs. resultados del dataset público: aunque todos los modelos rinden mejor sobre el dataset público, los resultados del dataset privado son más indicativos del rendimiento real, ya que se centran en intentos de jailbreak más simples y comunes.
Conclusión
El Jailbreak Firewall de NeuralTrust ofrece la solución más equilibrada y efectiva para la detección de jailbreaks, destacando tanto en precisión como en velocidad sobre escenarios de ataque realistas. Esto lo convierte en la opción preferida para organizaciones que buscan protección robusta y en tiempo real frente a intentos de jailbreak en despliegues de LLM en producción.





