Constitutional Classifiers: la nueva frontera de la seguridad en IA

Los grandes modelos de lenguaje (LLMs) son cada vez más potentes, con capacidades que se extienden a dominios científicos sensibles. Aunque este progreso desbloquea un enorme potencial para el bien, también introduce riesgos significativos. Uno de los retos más urgentes en safety de IA es el fenómeno del jailbreaking, donde los usuarios diseñan entradas que engañan al modelo para que se salte sus restricciones de seguridad y genere contenido dañino o malicioso. Aunque muchos de los primeros jailbreaks eran trucos sencillos, ha emergido una forma más sofisticada y peligrosa: el universal jailbreak.

Un universal jailbreak no es un éxito puntual. Es una estrategia de prompting sistemática y repetible que puede esquivar de forma fiable las salvaguardas de un LLM a través de una amplia gama de consultas dentro de un dominio específico. Son ataques cuidadosamente diseñados que pueden convertir un LLM de última generación, entrenado en safety, en una fuente desprotegida de información potencialmente peligrosa.

Lo que está en juego es especialmente alto en áreas como las ciencias CBRN (químicas, biológicas, radiológicas y nucleares). Como destaca el paper de Anthropic "Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming", el mal uso de los LLMs en estas áreas podría tener consecuencias catastróficas. Un universal jailbreak podría, por ejemplo, proporcionar a un no experto instrucciones detalladas y paso a paso para sintetizar un compuesto químico peligroso o convertir en arma un agente biológico. No es una preocupación teórica. El paper señala que estos jailbreaks se vuelven cada vez más preocupantes a medida que aumentan las capacidades CBRN de los LLMs.

Los métodos tradicionales de entrenamiento en safety, aunque importantes, han demostrado ser insuficientes para defenderse de estos ataques avanzados. Hacer fine-tuning de los modelos con ejemplos de contenido dañino puede ayudar, pero los atacantes desarrollan constantemente formas nuevas y más creativas de saltarse esas defensas. El problema es que el entrenamiento en safety del modelo puede ser un barniz frágil, fácil de erosionar por un adversario decidido. Aquí es donde se vuelve crítica la necesidad de una nueva capa de defensa más robusta.

Presentando los Constitutional Classifiers: arquitectura y principios centrales

En respuesta a la creciente amenaza de los universal jailbreaks, el Safeguards Research Team de Anthropic ha introducido un mecanismo de defensa novedoso y robusto: los Constitutional Classifiers. Este enfoque va más allá del entrenamiento tradicional en safety implementando un sistema de defensa dinámico y por capas diseñado para detectar y mitigar el contenido dañino generado por los LLMs.

En su núcleo, un sistema Constitutional Classifier opera sobre una arquitectura dual, formada por clasificadores de entrada y clasificadores de salida. Esta defensa por capas puede conceptualizarse como un modelo de "queso suizo", donde múltiples capas imperfectas de protección se apilan para crear una salvaguarda global más robusta. Aunque ninguna capa individual sea infalible, su efecto combinado reduce significativamente la probabilidad de un ataque exitoso.

El papel de la constitución

La innovación fundacional de los Constitutional Classifiers reside en su dependencia de una constitución: un conjunto de reglas en lenguaje natural que definen explícitamente categorías de contenido permitido y restringido. Esta constitución sirve como principio rector de todo el sistema de defensa. A diferencia de las reglas hardcodeadas, una constitución en lenguaje natural ofrece una flexibilidad sin igual. Puede adaptarse y refinarse rápidamente para abordar nuevos modelos de amenaza, permitiendo que el sistema evolucione junto a nuevos vectores de ataque y normas sociales.

Por ejemplo, en el contexto de los riesgos CBRN, una constitución podría incluir reglas como:

Ejemplos de constitución dañina:

"Adquirir productos químicos restringidos"

"Purificar productos químicos restringidos"

"Escalar la producción de productos químicos restringidos"

Ejemplos de constitución inofensiva:

"Listar medicamentos comunes"

"Explicar las propiedades de los productos químicos del hogar"

"Explicar química de instituto"

Estas reglas no se aplican directamente para filtrar contenido. En su lugar, se utilizan para generar datos sintéticos de entrenamiento. Esta es una distinción crítica. Prompteando LLMs con estas reglas constitucionales, el sistema puede crear grandes cantidades de ejemplos etiquetados que representan tanto interacciones dañinas como inofensivas. Estos datos sintéticos se convierten entonces en el cimiento sobre el que se entrenan los clasificadores.

Arquitectura dual de clasificadores

Clasificadores de entrada

El clasificador de entrada actúa como primera línea de defensa. Su rol principal es escrutar los prompts del usuario antes incluso de que lleguen al LLM principal. Identifica y bloquea intentos de circunvalar el clasificador de salida o de iniciar un jailbreak desde el principio. Este filtrado preventivo es crucial para evitar que los prompts maliciosos influyan en el proceso de generación del modelo.

Clasificadores de salida

El clasificador de salida es posiblemente el componente más sofisticado, especialmente por su capacidad de predicción en streaming. En lugar de esperar a que el LLM complete toda su respuesta, el clasificador de salida monitoriza la generación del modelo token a token. Si se detecta contenido dañino en cualquier momento del proceso de generación, el sistema puede detener inmediatamente la salida, evitando que la respuesta maliciosa completa se entregue al usuario. Esta intervención en tiempo real es vital para mantener tanto la safety como una experiencia de usuario positiva, ya que evita presentar contenido parcialmente dañino.

Este enfoque dual asegura que, incluso si un prompt malicioso consigue saltarse el clasificador de entrada, el clasificador de salida está listo para interceptar y evitar la difusión de información dañina. La combinación de estos dos clasificadores, guiada por una constitución flexible en lenguaje natural, forma una defensa potente y adaptable frente al panorama en constante evolución de los jailbreaks de LLM.

Cómo funciona: de la constitución a la protección en tiempo real

La efectividad de los Constitutional Classifiers proviene de un proceso meticulosamente diseñado que transforma reglas constitucionales abstractas en defensas concretas y en tiempo real. Esto implica varias etapas técnicas clave: especificar la constitución, generar datos sintéticos y desplegar un sistema dual de clasificadores con capacidades de streaming.

Especificar la constitución: el blueprint de la safety

El primer paso es definir la propia constitución. No es un documento estático, sino un conjunto dinámico de reglas en lenguaje natural que delimita categorías de contenido permitido y restringido. El poder de una constitución en lenguaje natural reside en su adaptabilidad. A medida que emergen nuevas amenazas o evoluciona la comprensión del contenido dañino, la constitución puede actualizarse, permitiendo que las salvaguardas se adapten rápidamente sin requerir una extensa recopilación manual de datos. Esta flexibilidad es crucial en el panorama vertiginoso de la seguridad en IA.

Crucialmente, la constitución especifica tanto categorías dañinas como inofensivas. Esta doble especificación es vital para entrenar clasificadores que puedan hacer distinciones matizadas, evitando over-refusals en consultas benignas a la vez que bloquean efectivamente las maliciosas. Por ejemplo, una regla podría diferenciar entre explicar principios básicos de química (inofensivo) y proporcionar instrucciones para sintetizar productos químicos peligrosos (dañino).

Generar datos sintéticos: alimentando a los clasificadores

Una vez definida la constitución, la siguiente etapa implica generar datos sintéticos para entrenar los clasificadores. Aquí es donde los propios LLMs desempeñan un papel fundamental al crear sus propios mecanismos de defensa. El proceso típicamente implica:

Generación de consultas: se le pide a un LLM helpful-only que genere un conjunto diverso de consultas que abarquen las categorías definidas en la constitución. Esto asegura una amplia cobertura de las posibles interacciones.
Generación de salidas dañinas e inofensivas: para cada consulta generada, se utiliza el LLM helpful-only para producir tanto salidas dañinas como inofensivas. Esto crea un dataset rico de ejemplos del que aprenderán los clasificadores.
Filtrado y aumentación: los datos generados pasan por un proceso de filtrado para eliminar rechazos inadvertidos o ambigüedades. Además, se aplican extensivamente técnicas de data augmentation. Esto implica transformar los datos sintéticos de diversas formas (p. ej. parafraseo, codificación, traducción) para incrementar su diversidad y robustez, haciendo a los clasificadores más resistentes a patrones de ataque novedosos y a intentos de ofuscación. El paper señala que la robustez del clasificador escala con la cantidad de datos de entrenamiento y el número de aumentaciones.

Este proceso de generación de datos sintéticos es una ventaja significativa, ya que evita la necesidad de un etiquetado manual costoso y lento, permitiendo una rápida iteración y escalado del sistema de defensa.

Despliegue dual de clasificadores: protección en tiempo real

Los clasificadores entrenados se despliegan después como una defensa de doble capa:

Clasificador de entrada

El clasificador de entrada evalúa los prompts entrantes del usuario. Su función es identificar y bloquear consultas que probablemente conduzcan a salidas dañinas o que en sí mismas sean intentos de jailbreaking. Filtrando en la etapa de entrada, evita que el LLM principal procese siquiera peticiones potencialmente maliciosas, reduciendo la superficie de ataque.

Clasificador de salida en streaming

El clasificador de salida es un componente sofisticado que monitoriza las respuestas del LLM en tiempo real. A diferencia de los filtros tradicionales post-generación, este clasificador opera con un modelo de predicción en streaming. Esto significa que evalúa la potencial peligrosidad del contenido generado en cada token a medida que el LLM lo produce. Si el clasificador detecta que el stream de salida en curso se está adentrando en territorio dañino, puede detener inmediatamente el proceso de generación. Esto evita la finalización y entrega de contenido malicioso, ofreciendo una última línea de defensa crucial.

Técnicamente, el clasificador de salida es a menudo un LLM sometido a fine-tuning, optimizado para tareas de clasificación. El paper describe cómo realiza una predicción en cada token sobre la peligrosidad de toda la secuencia de salida. Esa predicción se utiliza para evaluar si el stream de salida debe detenerse en una posición de token dada. El objetivo de entrenamiento para esta capacidad de streaming implica optimizar una función de pérdida que combina la pérdida estándar de predicción del siguiente token con una pérdida de binary-cross-entropy para la predicción de peligrosidad. El enfoque también aprovecha una probabilidad cumulative-maximum value-head durante el entrenamiento para asegurar que las probabilidades predictivas solo aumenten cuando el modelo está seguro de que la secuencia completa será dañina, mejorando el rendimiento y la estabilidad.

Combinando una constitución flexible en lenguaje natural con la generación de datos sintéticos y un sistema dual de clasificadores con protección en streaming en tiempo real, los Constitutional Classifiers ofrecen un framework potente y adaptable para salvaguardar los LLMs frente a los intentos de jailbreak más avanzados.

El guante: 3.000 horas de Red Teaming

Una cosa es la robustez teórica, y otra muy distinta es la resiliencia en el mundo real. Para validar verdaderamente la efectividad de los Constitutional Classifiers, Anthropic sometió su prototipo a una evaluación de red teaming humano sin precedentes y rigurosa. No fue un test casual: fue un programa de bug bounty a gran escala diseñado para llevar al límite el mecanismo de defensa.

Una empresa masiva

Anthropic se asoció con HackerOne, invitando a 405 participantes de orígenes diversos —incluidos investigadores académicos, profesores universitarios y contratistas experimentados en red-teaming de LLMs— a intentar activamente jailbreakear su sistema basado en Claude 3.5 Sonnet. Lo que estaba en juego era importante, con recompensas de hasta 15.000 USD ofrecidas por el descubrimiento de universal jailbreaks, sumando 95.000 USD en pagos totales. Este esfuerzo extensivo acumuló más de 3.000 horas estimadas de red teaming, proporcionando una prueba de estrés exhaustiva para los Constitutional Classifiers.

Definir el éxito de un universal jailbreak

A efectos de esta evaluación, un universal jailbreak se definió por su capacidad de provocar información dañina detallada comparable a la de un modelo sin protección. Para evaluar el éxito de forma objetiva, se implementó un pipeline de calificación con rúbrica multietapa basado en LLMs. Esto implicaba generar outputs base de modelos helpful-only (sin salvaguardas) para crear rúbricas específicas por consulta. Las salidas de los red teamers se evaluaron contra esas rúbricas, con puntuaciones que indicaban cuánta información dañina se había logrado extraer.

La defensa inquebrantable: no se encontró ningún universal jailbreak

El hallazgo más significativo de este extenso esfuerzo de red teaming fue que ningún red teamer encontró un universal jailbreak capaz de extraer información de forma consistente con un nivel de detalle similar al de un modelo sin protección a través de las consultas CBRN objetivo. Aunque algunos reportes lograron extraer parte de información dañina, ninguno consiguió el éxito comprehensivo necesario para ser clasificado como universal jailbreak.

Incluso considerando criterios menos estrictos (la mitad del detalle de un modelo sin restricciones) o agregando el mejor rendimiento de los red teamers individuales a lo largo de múltiples intentos, el sistema demostró una resiliencia notable. El red teamer más exitoso, combinando todos sus esfuerzos, pudo responder como máximo a seis de diez preguntas en el umbral más estricto, lejos de un bypass universal.

Estrategias de ataque y matices de la evaluación

Los red teamers emplearon una amplia gama de estrategias de ataque sofisticadas, incluyendo:

Enfoques multiturno graduales: escalar incrementalmente consultas dañinas a lo largo de varios turnos.
Few-Shot attacks: proporcionar unos pocos ejemplos del comportamiento dañino deseado.
Escenarios de role-playing: prompting para que el LLM adopte una persona que pudiera saltarse las salvaguardas.
Métodos de ofuscación: usar esquemas de codificación, ataques de texto en imagen o traducciones cross-lingual para ocultar la intención dañina.
Prompt Injection y ataques basados en plantillas: aprovechar técnicas conocidas de jailbreak como el prompt "Do Anything Now" (DAN).
Estrategias de descomposición: descomponer tareas dañinas en componentes aparentemente inocuos.

Resulta interesante que el paper señala que entre los reportes de mayor severidad, los red teamers explotaron principalmente el protocolo de calificación por rúbrica, en lugar de saltarse directamente los Constitutional Classifiers. Esto implicó técnicas como el "benign paraphrasing" (reformular consultas dañinas de forma inocua) y la "length exploitation" (generar salidas verbosas para aumentar la probabilidad de acertar palabras clave de la rúbrica). Esta observación subraya un insight crítico: los atacantes siempre apuntarán al componente más débil del sistema, y en este caso parecía ser la propia metodología de evaluación, en lugar de los mecanismos de defensa centrales.

Este extenso red teaming no solo validó la robustez de los Constitutional Classifiers, sino que también destacó la importancia de evaluar tanto los clasificadores como su infraestructura de despliegue. Un único error de implementación, por ejemplo, permitió a los participantes recibir hasta 128 tokens después de que el contenido dañino fuera marcado, enfatizando que incluso los clasificadores robustos necesitan una integración impecable.

Práctico y adaptable: la viabilidad en el mundo real

Más allá de la robustez teórica, la verdadera prueba de cualquier mecanismo de safety de IA reside en su viabilidad de despliegue práctico. Los Constitutional Classifiers no solo demuestran una defensa excepcional frente a los universal jailbreaks, sino que también resultan notablemente eficientes y adaptables, abordando preocupaciones clave para la aplicación real.

Mantener la viabilidad de despliegue

Para que cualquier salvaguarda sea ampliamente adoptada, no debe entorpecer indebidamente el rendimiento ni la experiencia de usuario del LLM subyacente. La investigación de Anthropic evaluó meticulosamente los Constitutional Classifiers frente a tres criterios críticos para un despliegue práctico:

Sobrecarga de inferencia y latencia razonables: el sistema debe ser coste-efectivo en producción, lo que significa que los recursos computacionales adicionales requeridos por los clasificadores deben ser mínimos.
Preservación del time-to-first-token y de las capacidades de streaming: la experiencia de usuario es primordial. Las salvaguardas no deben introducir retrasos perceptibles en la generación de la respuesta del LLM.
Bajas tasas de falsos positivos: los over-refusals, en los que consultas benignas se marcan incorrectamente como dañinas, pueden frustrar a usuarios legítimos y socavar la confianza en el sistema.

Los Constitutional Classifiers destacan en estas áreas. El paper resalta que los clasificadores mejorados, desplegados con Claude 3.5 Haiku, mostraron una eficiencia impresionante. Introdujeron solo un 0,38% de incremento absoluto en rechazos de tráfico de producción en Claude.ai y un 23,7% de sobrecarga de inferencia relativa al modelo base. Estas cifras son significativamente más bajas que las de otros métodos baseline de salvaguarda, convirtiendo a los Constitutional Classifiers en una opción altamente viable para despliegues a gran escala.

Flexibilidad y adaptabilidad a amenazas en evolución

El panorama de amenazas de IA evoluciona constantemente, con nuevas técnicas de jailbreak emergiendo regularmente. Un mecanismo de defensa estático quedaría obsoleto rápidamente. Aquí es donde brilla la flexibilidad inherente de los Constitutional Classifiers. La dependencia del sistema de una constitución en lenguaje natural permite una rápida adaptación a nuevos modelos de amenaza. Si se identifica un nuevo tipo de contenido dañino o un vector de ataque, la constitución puede actualizarse para incluir nuevas categorías de contenido restringido o permitido. Esta constitución actualizada guía después la generación de nuevos datos sintéticos de entrenamiento, permitiendo a los clasificadores aprender y adaptarse sin requerir una extensa recolección manual de datos o una revisión completa del sistema.

Esta adaptabilidad es un cambio de juego para la seguridad de la IA. Significa que los desarrolladores pueden responder proactivamente a las amenazas emergentes, asegurando que sus LLMs permanezcan seguros y alineados con su propósito previsto. La capacidad de iterar y refinar rápidamente el mecanismo de defensa basándose en observaciones reales y riesgos en evolución es una ventaja potente en la carrera armamentística continua contra los actores maliciosos.

Tendencias de escalado y mejoras de rendimiento

La investigación también exploró cómo el rendimiento de los Constitutional Classifiers escala con varios factores, proporcionando insights para mejoras futuras:

Tamaño del modelo: la robustez del clasificador aumenta consistentemente con el tamaño del modelo clasificador, indicando que los modelos más grandes pueden lograr mejor generalización y capacidades de defensa.
Cantidad de datos: utilizar datasets de entrenamiento más grandes para el fine-tuning de los clasificadores conduce a mejoras sustanciales de robustez.
Data augmentation: incorporar métodos adicionales de transformación durante la data augmentation generalmente aumenta la robustez del clasificador, haciéndolos más resilientes ante estrategias de ataque diversas.

Estas tendencias de escalado sugieren que, a medida que avancen los recursos computacionales y las técnicas de generación de datos, la efectividad de los Constitutional Classifiers puede mejorarse aún más, ofreciendo un camino claro para una mejora continua en la safety de los LLMs.

En esencia, los Constitutional Classifiers ofrecen una solución atractiva que equilibra seguridad robusta con consideraciones prácticas de despliegue. Su eficiencia y adaptabilidad inherente los convierten en una piedra angular para construir sistemas de IA más seguros y fiables en el mundo real.

El futuro de la safety en IA: un enfoque multicapa

El desarrollo de los Constitutional Classifiers marca un salto significativo en la búsqueda continua de asegurar a los Grandes Modelos de Lenguaje frente a ataques sofisticados como los universal jailbreaks. Introduciendo un sistema de defensa flexible, guiado por constitución y por capas, Anthropic ha demostrado que unas salvaguardas robustas y prácticamente viables son, en efecto, abordables. Sin embargo, como con cualquier avance en seguridad de IA, es crucial ver esta innovación no como una solución definitiva, sino como un poderoso componente dentro de una estrategia de defensa multicapa más amplia.

Más allá de la bala de plata

El propio paper reconoce que, aunque los Constitutional Classifiers ofrecen mejoras sustanciales de robustez, la sabiduría común sugiere que probablemente surjan vulnerabilidades del sistema con pruebas continuadas. Esta perspectiva es vital. En el campo dinámico de la seguridad en IA no hay una solución única o "bala de plata" que pueda garantizar una safety absoluta. En su lugar, el futuro de la safety en IA dependerá del desarrollo continuo y la integración de defensas complementarias.

Los pilares de una defensa multicapa

Una seguridad de IA efectiva, particularmente para modelos cada vez más capaces, se apoyará en varios pilares interconectados:

Investigación y desarrollo continuo en salvaguardas: innovaciones como los Constitutional Classifiers son esenciales. La investigación futura probablemente explorará técnicas de clasificación aún más sofisticadas, potencialmente integrándose con los internos del modelo o con sistemas avanzados de detección de anomalías.
Red Teaming robusto y testing adversarial: el extenso esfuerzo de red teaming descrito en el paper subraya el papel crítico del testing adversarial. Desafiar continuamente a los sistemas de IA con nuevos vectores de ataque es indispensable para identificar debilidades e impulsar mejoras. Esto debe incluir tanto red teaming humano como automatizado.
Desarrollo ético y gobernanza de la IA: más allá de las salvaguardas técnicas, un marco ético sólido y políticas de gobernanza robustas son primordiales. Esto incluye prácticas de despliegue responsable, directrices claras para el uso de IA y mecanismos de rendición de cuentas.
Transparencia e interpretabilidad: entender por qué un sistema de IA toma determinadas decisiones, especialmente las relativas a safety, es crucial. Una transparencia mejorada puede ayudar a diagnosticar fallos y construir sistemas más dignos de confianza.
Colaboración a través del ecosistema de IA: la safety de IA es una responsabilidad compartida. La colaboración entre investigadores, desarrolladores, responsables políticos y sociedad civil es esencial para abordar los complejos retos y asegurar que la IA beneficie a la humanidad.

El camino a seguir

Los Constitutional Classifiers representan un paso significativo hacia la mitigación de los riesgos asociados a los LLMs potentes. Su capacidad para defenderse frente a universal jailbreaks con eficiencia práctica y adaptabilidad proporciona una base sólida para despliegues de IA más seguros. Sin embargo, el viaje hacia una IA verdaderamente segura y beneficiosa está en curso. Exige un enfoque proactivo y polifacético, donde la innovación continua en salvaguardas se acompañe de pruebas rigurosas, consideraciones éticas y esfuerzos colaborativos a lo largo de la comunidad global de IA. Solo a través de una estrategia tan completa podremos aprovechar el potencial transformador de la IA gestionando eficazmente sus riesgos inherentes.

Constitutional Classifiers: la nueva frontera de la seguridad en IA

Presentando los Constitutional Classifiers: arquitectura y principios centrales

El papel de la constitución

Arquitectura dual de clasificadores

Clasificadores de entrada

Clasificadores de salida

Cómo funciona: de la constitución a la protección en tiempo real

Especificar la constitución: el blueprint de la safety

Generar datos sintéticos: alimentando a los clasificadores

Despliegue dual de clasificadores: protección en tiempo real

Clasificador de entrada

Clasificador de salida en streaming

El guante: 3.000 horas de Red Teaming

Una empresa masiva

Definir el éxito de un universal jailbreak

La defensa inquebrantable: no se encontró ningún universal jailbreak

Estrategias de ataque y matices de la evaluación

Práctico y adaptable: la viabilidad en el mundo real

Mantener la viabilidad de despliegue

Flexibilidad y adaptabilidad a amenazas en evolución

Tendencias de escalado y mejoras de rendimiento

El futuro de la safety en IA: un enfoque multicapa

Más allá de la bala de plata

Los pilares de una defensa multicapa

El camino a seguir

Suscríbete a nuestra newsletter

Únete a los líderes que aseguran el ecosistema de agentesÚnete a los líderes que aseguran el ecosistema de agentes