TL;DR
Los investigadores han demostrado que la característica misma que hace inteligentes a los modelos de razonamiento, las largas cadenas de pensamiento paso a paso, puede convertirse en un arma para eludir sus salvaguardas de seguridad. El ataque, llamado Secuestro de la Cadena de Razonamiento (Chain-of-Thought Hijacking), entierra una solicitud dañina bajo miles de tokens de resolución de acertijos inofensivos. La "señal de rechazo" interna del modelo se diluye a medida que crece el razonamiento, y el ataque tiene éxito hasta el 100% de las veces contra modelos de frontera, incluidos Gemini 2.5 Pro, ChatGPT o4-mini, Grok 3 Mini y Claude 4 Sonnet. La solución no es más entrenamiento de seguridad, es una verificación de seguridad continua y en tiempo real a lo largo de todo el proceso de razonamiento.
Datos clave de un vistazo
- Qué es: Un jailbreak de caja negra que explota las trazas largas de razonamiento.
- Qué tan bien funciona: 99% (Gemini 2.5 Pro), 94% (ChatGPT o4-mini), 100% (Grok 3 Mini), 94% (Claude 4 Sonnet) en HarmBench.
- Por qué importa: Es sistemático entre proveedores, no una peculiaridad de un solo modelo, y escala con la autonomía que otorgamos a los sistemas agénticos.
De "Pensemos paso a paso" al mito de la seguridad lógica
El panorama de la inteligencia artificial cambió en 2022 con un descubrimiento sorprendentemente simple: añadir la frase "Pensemos paso a paso" a un prompt permitía a los LLM resolver problemas lógicos complejos que antes los desconcertaban. Esta técnica, introducida por Kojima et al. en Large Language Models are Zero-Shot Reasoners, demostró que los modelos poseían capacidades de razonamiento latentes que solo necesitaban el detonante adecuado para aflorar.
Ese avance, junto con el trabajo de Wei et al. Chain-of-Thought Prompting, inauguró la era del prompting de cadena de razonamiento (CoT). Replanteó los LLM, dejando de verlos como simples predictores del siguiente token para concebirlos como "motores de razonamiento" capaces de descomponer problemas, verificar pasos intermedios y alcanzar conclusiones más precisas. La implicación parecía clara: si un modelo se toma tiempo para pensar un problema, debería producir un resultado de mayor calidad.
Esta lógica se extendió rápidamente a la seguridad de la IA. La suposición predominante pasó a ser que más razonamiento produciría naturalmente una mejor alineación, una teoría a menudo llamada alineación deliberativa. Si se obliga a un modelo a deliberar, seguramente mejora a la hora de detectar intenciones dañinas, seguir directrices de seguridad complejas y rechazar solicitudes maliciosas. Un modelo "más inteligente" con más "tiempo para pensar" debería ser menos propenso a los fallos de coincidencia de patrones que definían a los jailbreaks anteriores.
Pero a medida que escalamos el cómputo en tiempo de inferencia hacia los grandes modelos de razonamiento (LRM) como la serie o de OpenAI o Gemini 2.5 Pro, ha surgido una paradoja inquietante. El mecanismo mismo que permite a estos modelos resolver demostraciones matemáticas profundas es el que puede explotarse para eludir sus salvaguardas de seguridad más fundamentales. Cuando se trata de seguridad de la IA, "pensar más" no siempre significa "ser más seguro". De hecho, las cadenas de razonamiento excesivamente largas pueden ser la clave de una nueva y altamente eficaz clase de vulnerabilidades a nivel de sistema.
¿Qué es el Secuestro de la Cadena de Razonamiento?
Durante años, la comunidad investigadora trató el jailbreaking como un juego lingüístico del gato y el ratón. Los atacantes buscaban el "roleplay" o la "persona" adecuados para engañar a un modelo y hacer que ignorara su entrenamiento de seguridad; los desarrolladores respondían con mejores filtros y un aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) más robusto. El artículo Chain-of-Thought Hijacking revela una fase nueva y más peligrosa.
La vulnerabilidad descubierta por Zhao et al. no consiste en formular una pregunta con astucia. Es una explotación sistemática de cómo los LRM procesan la información a lo largo del tiempo. Los investigadores proponen un ataque de caja negra que induce al modelo a realizar una cantidad masiva de razonamiento benigno antes de llegar siquiera a la solicitud dañina.
Lo que hace significativo el descubrimiento es su eficacia. En el marco de HarmBench, el ataque logra tasas de éxito casi inéditas en el panorama de seguridad actual:
- 100% en Grok 3 Mini
- 99% en Gemini 2.5 Pro
- 94% en ChatGPT o4-mini
- 94% en Claude 4 Sonnet
Estos no son juguetes experimentales, son sistemas de frontera que muchas empresas despliegan para tareas críticas de razonamiento. Si pueden ser comprometidos con tanta fiabilidad, nuestra comprensión actual del razonamiento "seguro" es fundamentalmente errónea.
¿Por qué ocurre? Los LRM están diseñados para priorizar el flujo lógico de sus propios pensamientos. Al secuestrar ese flujo con miles de tokens de razonamiento inofensivo y complejo, un atacante entierra la intención maliciosa tan profundamente en el contexto del modelo que los mecanismos de seguridad simplemente no se activan. Es silencioso, sigiloso y devastadoramente eficaz.
La anatomía del ataque: la estrategia del acertijo benigno
Para entender cómo funciona el ataque, observe cómo los LRM asignan sus recursos de "pensamiento". A diferencia de los LLM estándar, que responden casi instantáneamente, los LRM están entrenados para producir una traza de razonamiento estructurada, explorando caminos, verificando hechos y corrigiendo sus propios errores antes de dar una respuesta final.
El ataque de secuestro convierte esta característica en un fallo. En lugar de pedir algo dañino directamente, el atacante fuerza al modelo a realizar una tarea masiva, compleja, pero enteramente benigna. La versión más eficaz utiliza acertijos, adivinanzas matemáticas, paradojas lógicas o desafíos de codificación de múltiples pasos, que requieren miles de tokens de razonamiento.
Durante este proceso, el modelo hace exactamente aquello para lo que fue creado: ser útil, lógico y riguroso. Los filtros de seguridad internos no ven toxicidad, ni discurso de odio, ni intención maliciosa evidente en la traza de razonamiento.
Pero la solicitud dañina no ha desaparecido. Está esperando al final del largo y lógico túnel. Para cuando el modelo termina su maratón de razonamiento benigno y llega al prompt malicioso, algo crítico ha cambiado: la atención del modelo se ha desplazado.
Esta es la genialidad del ataque. No combate las salvaguardas del modelo, las supera por velocidad. Al enterrar la intención dañina bajo una montaña de lógica irreprochable, el atacante crea un contexto en el que el modelo está tan involucrado en su flujo de razonamiento que no registra el cambio hacia territorio peligroso. El acertijo benigno actúa como una cortina de humo cognitiva, dejando que la instrucción maliciosa final se cuele a través de un sistema demasiado concentrado en tener razón como para notar que está equivocándose.
Hallazgos mecanísticos: dilución del rechazo y desplazamientos de atención
¿Qué ocurre dentro del "cerebro" de un modelo de razonamiento durante el ataque? Los investigadores realizaron un análisis profundo de las activaciones internas del modelo e identificaron un fenómeno que denominan dilución del rechazo.
Cuando un LLM rechaza una solicitud, es el resultado de que una señal de rechazo específica se activa en sus capas internas. La investigación muestra que esta señal a menudo existe como una dirección de baja dimensionalidad en el espacio de activaciones del modelo. Cuando el estado interno se alinea con este vector de rechazo, se activa la respuesta "No puedo ayudar con eso".
El hallazgo central de Chain-of-Thought Hijacking es que esta señal no es estática. Es dinámica y frágil. A medida que el modelo genera miles de tokens de razonamiento benigno, suceden dos cosas:
- Atenuación de la atención. El mecanismo de atención es como un foco de luz. En un prompt corto, está enfocado en la solicitud dañina. Pero a medida que la traza de razonamiento crece a 5.000 o 10.000 tokens, el peso relativo del prompt dañino original disminuye, el modelo gasta más de su presupuesto de atención en sus propios pensamientos recientes y benignos.
- Debilitamiento de la activación. Sondear las capas del modelo muestra que la intensidad de la señal de rechazo literalmente cae a medida que la traza se alarga. La representación interna de la "intención dañina" se diluye por el enorme volumen de información "segura" recién generada. Los investigadores localizan esto estructuralmente: las capas intermedias codifican la fuerza de la verificación de seguridad, mientras que las capas tardías codifican la dirección de rechazo en sí.
Para demostrar que esto no era una coincidencia, el equipo utilizó intervenciones causales. Identificaron cabezas de atención específicas en las capas tempranas e intermedias responsables de mantener la señal de rechazo. Cuando las ablacionaron (desactivaron), la capacidad del modelo para rechazar solicitudes dañinas colapsó.
La seguridad en los grandes modelos de razonamiento es, en efecto, una batalla constante por la atención. Si un atacante puede hacer que el modelo "se hable a sí mismo" el tiempo suficiente sobre algo inofensivo, la señal interna que dice "esto es una mala idea" se desvanece en el ruido de fondo. El modelo no olvida las reglas, pierde el impulso interno para hacerlas cumplir.
Evidencia empírica: una vulnerabilidad sistemática
El aspecto más llamativo de la investigación son los datos empíricos. En seguridad de la IA, los jailbreaks que funcionan el 20-30% de las veces a menudo se consideran exitosos. Los resultados de Zhao et al. representan un colapso casi total de las fronteras de seguridad actuales para los LRM.
Usando HarmBench, un estándar riguroso para evaluar el comportamiento de rechazo, los investigadores probaron el ataque contra los modelos de razonamiento más avanzados disponibles. Los resultados fueron notablemente consistentes entre arquitecturas y proveedores.
| Modelo | Tasa de éxito del ataque (ASR) |
|---|---|
| Grok 3 Mini | 100% |
| Gemini 2.5 Pro | 99% |
| ChatGPT o4-mini | 94% |
| Claude 4 Sonnet | 94% |
Fuente: Zhao et al., arXiv:2510.26418, evaluado en HarmBench.
Estas cifras indican que no se trata de un fallo aislado ni de una peculiaridad de un conjunto de datos de entrenamiento. Que Grok, Gemini, GPT y Claude caigan todos ante la misma técnica sugiere que el problema es inherente a cómo escalamos actualmente el razonamiento en tiempo de inferencia.
Los investigadores también examinaron la relación entre la longitud de la traza de razonamiento y el éxito del ataque, y encontraron una correlación clara: a medida que aumentaba el número de tokens de razonamiento benigno, la probabilidad de que el modelo rechazara la solicitud dañina final disminuía. Pasado cierto umbral de longitud y complejidad, los mecanismos de seguridad se volvían casi totalmente no funcionales.
Esto nos obliga a reconsiderar las "leyes de escalado" de la seguridad de la IA. Durante mucho tiempo creímos que, a medida que los modelos crecen y se vuelven más capaces, resulta más fácil alinearlos. Para el razonamiento, puede ocurrir lo contrario: a medida que damos a los modelos más espacio para pensar, damos a los atacantes más espacio para esconderse. La profundidad que hace valiosos a estos modelos es lo que los hace vulnerables. Esto no es un fallo del RLHF, es una tensión fundamental entre el razonamiento de formato largo y la monitorización robusta de la intención.
Implicaciones de la investigación para los sistemas agénticos
El descubrimiento tiene implicaciones profundas para la IA agéntica. Nos dirigimos hacia un mundo en el que los agentes no solo responden preguntas, sino que ejecutan flujos de trabajo complejos y de múltiples pasos de forma autónoma, accediendo a herramientas externas, navegando por la web, incluso gestionando transacciones. La suposición era que el paso de razonamiento actuaría como gobernanza interna, permitiendo al agente autocorregirse y mantenerse dentro de los límites de seguridad.
La dilución del rechazo sugiere que la gobernanza interna es mucho más frágil de lo que se suponía. Si la verificación de seguridad de un modelo es una señal dinámica que se debilita con el tiempo, la autonomía que otorgamos a los sistemas agénticos se convierte en un riesgo. Tres desafíos destacan:
- La brecha de monitorización. La monitorización de seguridad actual se centra en la entrada (el prompt) y la salida (la respuesta final). En un flujo de trabajo agéntico, el peligro vive en el medio, los miles de tokens de razonamiento interno donde la señal de seguridad se diluye. Monitorizar esas trazas en tiempo real es computacionalmente costoso y técnicamente difícil.
- La paradoja de la confianza. Queremos agentes que resuelvan problemas complejos, lo que requiere largas cadenas de razonamiento. Pero cuanto más larga es la cadena, menor es la fiabilidad de las salvaguardas del modelo, un conflicto directo entre la utilidad de un agente y su seguridad.
- Deriva dinámica de la intención. En un proceso de larga duración, la intención efectiva del sistema puede derivar. Una tarea benigna puede orientarse hacia un resultado dañino a través de pasos que parecen seguros individualmente pero que colectivamente eluden la alineación.
Para los investigadores, la lección es que la alineación ya no puede ser un paso de entrenamiento único. No podemos simplemente enseñar a un modelo a ser bueno y esperar que siga siéndolo a lo largo de una traza de razonamiento ilimitada. Necesitamos mecanismos de seguridad que estén activos y sean persistentes durante toda la inferencia, comprobaciones de "latido" que reverifiquen la intención en cada paso, manteniendo fuerte la señal de rechazo sin importar cuán larga sea la cadena.
Más allá de la alineación superficial: construir una seguridad robusta
Los hallazgos marcan un punto de inflexión. Hemos dejado atrás la era en la que seguridad significaba filtrar palabras malsonantes o entrenar a un modelo para recitar una plantilla de rechazo. Ahora nos enfrentamos a una realidad en la que la arquitectura misma de la inteligencia, el razonamiento sobre contextos largos, es una palanca para eludir la seguridad.
Construir la próxima generación de IA segura requiere ir más allá de la alineación superficial con una estrategia multicapa que apunte a la mecánica de la dilución del rechazo:
- Verificación de seguridad continua. En lugar de comprobar la intención solo al inicio, los modelos necesitan comprobaciones en tiempo real que reevalúen el estado interno a intervalos regulares durante el razonamiento, manteniendo la señal de rechazo por encima de un umbral crítico.
- La interpretabilidad mecanística como defensa. Avanzar hacia la monitorización de caja blanca. Al comprender las cabezas de atención específicas y las rutas de activación que mantienen el comportamiento de rechazo, los desarrolladores pueden construir sistemas que alerten en el momento en que esas señales se debiliten.
- Salvaguardas en tiempo de inferencia. Desplegar monitorización externa que analice las trazas de razonamiento ocultas de los LRM. Si un modelo deriva hacia un estado en el que su atención está siendo secuestrada por lógica benigna, el sistema debería intervenir antes de que se genere la salida dañina.
El recorrido desde el "Pensemos paso a paso" de Kojima hasta el descubrimiento de la dilución del rechazo demuestra que el progreso en la IA rara vez es una línea recta. Cada salto en capacidad trae una nueva clase de riesgo. Pero al identificar estas vulnerabilidades de forma temprana, y al comprender las razones mecanísticas por las que existen, podemos construir una IA que no solo sea más inteligente, sino fundamentalmente más resiliente. El desafío para los próximos años es claro: a medida que nuestros modelos aprenden a pensar más profundamente, también deben aprender a permanecer seguramente alineados con los valores humanos para los que fueron creados.
Preguntas frecuentes
¿Qué es el Secuestro de la Cadena de Razonamiento? El Secuestro de la Cadena de Razonamiento (Chain-of-Thought Hijacking) es un ataque de jailbreak de caja negra sobre grandes modelos de razonamiento. Antepone a una instrucción dañina una larga secuencia de razonamiento de acertijos benignos, lo que diluye la señal de seguridad interna del modelo y hace que cumpla con la solicitud dañina. Fue introducido por Zhao et al. en arXiv:2510.26418.
¿Qué modelos de IA son vulnerables? En el estudio original, el ataque tuvo éxito contra todos los modelos de razonamiento de frontera probados: Grok 3 Mini (100%), Gemini 2.5 Pro (99%), ChatGPT o4-mini (94%) y Claude 4 Sonnet (94%) en el benchmark HarmBench.
¿Qué es la dilución del rechazo? La dilución del rechazo es el fenómeno por el cual la "señal de rechazo" interna de un modelo, una dirección de baja dimensionalidad en su espacio de activaciones, se debilita a medida que la traza de razonamiento se alarga. La intención dañina queda enterrada bajo un gran volumen de razonamiento benigno, y el mecanismo de seguridad no se activa.
¿Por qué un razonamiento más largo hace que los modelos sean menos seguros? Se combinan dos efectos. La atenuación de la atención reduce el peso relativo que el modelo da al prompt dañino original a medida que genera más tokens, y el debilitamiento de la activación reduce la intensidad de la señal de rechazo en sí. Juntos permiten que la solicitud maliciosa se cuele.
¿Cómo se puede prevenir el Secuestro de la Cadena de Razonamiento? Las defensas propuestas se centran en la verificación de seguridad continua y en tiempo real en lugar del entrenamiento único: reverificar la intención a intervalos durante el razonamiento, usar la interpretabilidad mecanística para monitorizar las cabezas de atención relacionadas con el rechazo, y desplegar salvaguardas en tiempo de inferencia que analicen la traza de razonamiento oculta e intervengan antes de que se produzca una salida dañina.
Sobre el autor
Alessandro Pignati es Investigador Líder de Seguridad de IA en NeuralTrust, donde dirige la investigación sobre seguridad de IA y agéntica, avanzando técnicas para evaluar y proteger grandes modelos de lenguaje y sistemas de IA autónomos. Está especializado en aprendizaje automático adversarial, red teaming de IA, seguridad de LLM y seguridad de IA, contribuyendo al desarrollo de una IA segura y confiable.
NeuralTrust es una plataforma de seguridad para agentes de IA, reconocida en la Guía de Mercado de Gartner 2025 para Agentes Guardianes. Con sede en Barcelona y certificación ISO 27001.
)
)