¿Qué son las Defensas del Conocimiento Secreto en IA?

Alessandro Pignati • 22 de diciembre de 2025

Contenido

La inyección de prompts es uno de los desafíos de seguridad más debatidos en los sistemas basados en LLM (modelos de lenguaje de gran tamaño). A diferencia de las vulnerabilidades de software tradicionales, la inyección de prompts no explota errores en el código, sino la forma en que los modelos de lenguaje interpretan y priorizan las instrucciones expresadas en lenguaje natural.

En un ataque de inyección de prompts, un adversario diseña una entrada con el fin de lograr uno o más de los siguientes resultados:

Anular las instrucciones del sistema o del desarrollador.
Redirigir el modelo hacia objetivos no deseados.
Influir sutilmente en el comportamiento del modelo a lo largo de una interacción de varios pasos.

Esto hace que la inyección de prompts sea difícil de defender. Los filtros basados en reglas, las listas negras de palabras clave y las técnicas de validación estática suelen fallar cuando el atacante va más allá de las anulaciones de instrucciones obvias y adopta estrategias indirectas o dependientes del contexto.

Como respuesta a estas limitaciones, ha surgido una clase de defensas con un enfoque distinto. En lugar de intentar reconocer una entrada maliciosa, estos métodos monitorean si el modelo permanece alineado con instrucciones que el atacante no puede ver. Estas técnicas se conocen comúnmente como defensas basadas en el conocimiento secreto.

La idea central es insertar señales ocultas —como claves secretas, canary tokens (tokens canario) u objetivos latentes— dentro del prompt del sistema o dentro del proceso interno del modelo. Mientras el modelo preserve estos elementos ocultos, el sistema asume que su comportamiento permanece intacto. Si las señales ocultas desaparecen o cambian, esto se trata como evidencia de que el objetivo efectivo del modelo puede haber sido influenciado por la entrada del usuario.

El concepto central: ocultar un secreto dentro del prompt

En el núcleo de las defensas de conocimiento secreto reside una idea simple: insertar información en el prompt que el atacante no pueda observar directamente y utilizar la capacidad del modelo para preservar esa información como una señal de integridad.

Esta información oculta puede adoptar varias formas:

Una clave secreta o una secuencia de tokens.
Una cadena "canario" que debe ser preservada o reproducida.
Una instrucción oculta que define una tarea auxiliar invisible para el usuario.

Aunque la terminología varía entre artículos académicos e implementaciones, el papel del secreto es siempre el mismo: actúa como un punto de referencia interno que permite al sistema detectar si el modelo sigue cumpliendo las instrucciones previstas.

Por qué ocultar un secreto parece efectivo

La intuición detrás de estas defensas se basa en una suposición común sobre las capacidades del atacante. En la mayoría de los despliegues del mundo real, el atacante solo controla la entrada que ve el usuario. Los prompts del sistema, las instrucciones del desarrollador y la lógica de control interna permanecen ocultos.

Desde esta perspectiva, parece razonable creer que:

Un atacante no puede manipular de manera fiable instrucciones que no puede ver.
Por lo tanto, no puede interferir deliberadamente con un objetivo oculto.

Esta premisa ha impulsado múltiples defensas que confían en el secreto en lugar del filtrado explícito.

Cómo se inserta el secreto

La mayoría de las defensas de conocimiento secreto siguen una estructura común:

Una tarea visible: La tarea que el modelo debe realizar para el usuario (ej. clasificación, resumen).
Una tarea oculta o invariante: Junto a la tarea visible, el prompt incluye una instrucción secreta (ej. preservar una secuencia de tokens o mantener un patrón de razonamiento).
Un paso de verificación: Tras generar la respuesta, el sistema verifica si el secreto sigue presente y si es coherente con lo esperado.

La intuición de la comprobación de integridad

Una forma útil de entender las defensas de conocimiento secreto es compararlas con los controles de integridad en los sistemas de seguridad tradicionales. En lugar de verificar una suma de comprobación (checksum) criptográfica, el sistema verifica la coherencia conductual.

La lógica no es "¿Es maliciosa la entrada?", sino más bien "¿Sigue el modelo siendo fiel a sus instrucciones ocultas?". Al monitorear al modelo en lugar de a la entrada, estas defensas aspiran a ser robustas incluso ante ataques inesperados o indirectos.

Casos prácticos: DataSentinel y MELON

Diferentes defensas toman distintas decisiones de diseño sobre dónde reside el secreto y qué se monitorea.

DataSentinel

DataSentinel es uno de los enfoques más directos. Su objetivo es introducir una tarea "honeypot" (señuelo) que el modelo debe realizar independientemente de la entrada del usuario.

Mecanismo: El prompt del sistema ordena al modelo ignorar la entrada del usuario y responder únicamente con una clave secreta o cadena canario.
Ventajas: Es simple de implementar, tiene un bajo coste computacional y ofrece una señal de detección binaria clara.

MELON (Monitoring via Embedded Latent Objective Nodes)

MELON adopta un enfoque más sofisticado al insertar marcadores secretos en el proceso de razonamiento del modelo.

Mecanismo: En lugar de un token de salida visible, el secreto reside en pasos intermedios (como el Chain of Thought).
Objetivo: Detectar inyecciones indirectas o derivas de comportamiento donde el atacante logra cambiar la lógica interna del modelo sin alterar necesariamente la respuesta final de forma obvia.

Evaluación y Modelo de Amenaza

Para entender cómo se comportan estas defensas, se evalúan mediante experimentos controlados basándose en ciertas suposiciones:

Capacidades del atacante: Control total sobre la entrada del usuario, pero sin visibilidad de los prompts del sistema ni acceso a los parámetros internos del modelo.
Métricas de éxito: 1. Rendimiento de la tarea: Que la defensa no degrade la funcionalidad normal. 2. Integridad del secreto: Que la señal oculta se preserve. 3. Detección: Capacidad para identificar ataques con bajos falsos positivos.

Conclusión y perspectivas

Las defensas basadas en el conocimiento secreto representan un cambio de paradigma: de intentar bloquear entradas maliciosas a monitorear la integridad del comportamiento del modelo.

Plataformas como NeuralTrust integran este concepto en marcos de trabajo de observabilidad y defensa en capas. A medida que los modelos de lenguaje se vuelven más autónomos, estas técnicas serán fundamentales no como soluciones aisladas, sino como bloques básicos para garantizar la seguridad en entornos de producción.