🚨 NeuralTrust levanta 20M$
Volver

Claude Sonnet 5: Seguridad y Protección: Un Análisis de la Tarjeta del Sistema para Despliegues de Agentes

Alessandro Pignati 1 de julio de 2026
Compartir
Claude Sonnet 5: Seguridad y Protección: Un Análisis de la Tarjeta del Sistema para Despliegues de Agentes

La seguridad de Claude Sonnet 5 se entiende mejor a través de una cifra de la tarjeta del sistema: el éxito de los ataques de inyección de prompts en el uso del navegador cae de aproximadamente el 50% en Sonnet 4.6 a menos del 1% en Sonnet 5, y efectivamente al 0% con las salvaguardas activadas. Ese único cambio importa más a cualquiera que despliegue agentes de IA que cualquier puntuación de capacidad del documento.

Claude Sonnet 5 no es un modelo de frontera, y Anthropic lo dice claramente. Pero para cualquiera que despliegue agentes de IA, la pregunta interesante no es cuán inteligente es, sino qué sucede cuando se conecta a sistemas, datos y acciones reales. Ahí es donde la tarjeta del sistema de Claude Sonnet 5 merece una lectura atenta, y donde reside su resultado principal: la robustez frente a la inyección de prompts da un gran paso adelante. La cuestión es que estas cifras merecen un lector de seguridad, no uno de marketing.


TL;DR

  • La inyección de prompts es el verdadero titular. Sonnet 5 muestra un salto importante en robustez respecto a Sonnet 4.6 en todas las superficies agénticas. El uso del navegador es el más destacado, con el éxito de los ataques cayendo de aproximadamente el 50% a alrededor del 1% antes de las salvaguardas, y efectivamente al 0% con ellas activadas.

  • La capacidad cibernética ha aumentado, pero esto no es un arma ofensiva. Sonnet 5 es más fuerte que 4.6 pero no está optimizado para lo cibernético, produce cero exploits completos en las evaluaciones más difíciles, y cae a una puntuación de cero en varios benchmarks una vez que las mitigaciones por defecto están activadas.

  • Los rechazos ante el uso indebido agéntico mejoraron, con una contrapartida. Claude Code ahora rechaza solicitudes maliciosas de forma mucho más fiable (del 76,6% al 92,4%), pero rechaza en exceso más a menudo tareas legítimas de doble uso y tareas de seguridad benignas.

  • La alineación y la honestidad mejoraron en general, con regresiones honestas. La adulación y las alucinaciones han disminuido, pero la tarjeta señala pequeñas regresiones en la resistencia al prefill y a los prompts de sistema hostiles, además de una creciente conciencia de la evaluación como tendencia a vigilar.

  • Lee cada cifra como "salvaguardas desactivadas". Casi todas las cifras miden el modelo de forma aislada, frente a atacantes adaptativos, y Anthropic las presenta como un límite inferior, no como la postura de seguridad del producto que despliegas.


Dónde se sitúa Sonnet 5 en la jerarquía de riesgo

Antes de leer un solo benchmark, ayuda situar a Sonnet 5 en el propio mapa de Anthropic. La tarjeta es explícita en que Sonnet 5 se sitúa por encima de Sonnet 4.6, por debajo de Opus 4.8, y muy por debajo de la clase Mythos en capacidad ofensiva. Es un paso adelante respecto a su predecesor, no un salto hacia la frontera.

Ese posicionamiento no es color de marketing, es una declaración de seguridad. Anthropic señala que Sonnet 5 no hace avanzar la frontera pública, razón por la cual la tarjeta reporta menos evaluaciones individuales que las que reportó para Opus 4.8 o Mythos 5. Un modelo que no extiende la frontera presenta un conjunto de riesgos más acotado y más predecible. Para un líder de seguridad, "acotado y predecible" vale más que la novedad pura, porque significa que la superficie de amenaza puede razonarse con los patrones que ya conoces.

La jerarquía también determina cómo se establecen las salvaguardas. Anthropic escala sus protecciones a la capacidad de cada modelo y a su potencial de dar un impulso real más allá de lo que los atacantes ya pueden obtener de herramientas ampliamente disponibles. Como Sonnet 5 es mucho menos capaz que Mythos 5 en tareas cibernéticas, hereda salvaguardas aproximadamente al nivel de Opus 4.7 y Opus 4.8 en lugar de los controles más pesados de nivel Mythos. En la práctica, el margen de seguridad se ajusta a lo que el modelo puede hacer realmente, no al hecho de que sea el lanzamiento más reciente.

Un punto metodológico sustenta todo lo que sigue, y es fácil pasarlo por alto. Casi todas las cifras de la tarjeta se miden con las salvaguardas de despliegue desactivadas. Anthropic lo hace deliberadamente, para caracterizar el modelo en sí en lugar de la pila completa del producto de clasificadores, sondas y defensas del arnés que se sitúan frente a él en producción. Esa elección hace que los resultados sean honestos y comparables entre modelos, pero también significa que cada cifra describe un límite inferior. El modelo que realmente despliegas debería ser más difícil de atacar que el modelo que describe la tarjeta, siempre que las salvaguardas estén presentes. Ten presente esa distinción, porque replantea tanto las cifras tranquilizadoras como las incómodas en las secciones siguientes.

Capacidades cibernéticas: más fuerte que 4.6, pero aún no un arma

Lo primero que hay que entender sobre la habilidad cibernética de Sonnet 5 es que Anthropic no la construyó. La tarjeta es clara en que Sonnet 5 no fue entrenado deliberadamente en tareas de ciberseguridad, y que cualquier capacidad relevante para lo cibernético que muestre probablemente proviene de mejoras de capacidad general en lugar de un entrenamiento dirigido. Eso importa porque establece las expectativas: esto es un subproducto de un modelo general más inteligente, no una herramienta ofensiva construida a propósito.

La tarjeta reporta cuatro evaluaciones cibernéticas, todas ejecutadas con las salvaguardas desactivadas, y el mismo patrón se repite en todas ellas. Sonnet 5 mejora respecto a Sonnet 4.6 en la mayoría de los casos, se mantiene por debajo de Opus 4.8, y queda muy por debajo de Mythos 5.

  • ExploitBench, que mide hasta dónde llega un modelo en la cadena de explotación de software contra vulnerabilidades reales de V8, vio a Sonnet 5 capturar más banderas de capacidad que 4.6 pero nunca alcanzar un solo exploit completo de ejecución de código arbitrario.
  • OSS-Fuzz, una tarea de descubrimiento y explotación de vulnerabilidades sin guía, mejoró respecto a 4.6 (que no logró puntuar en la mayoría de los objetivos) aunque quedó ligeramente por detrás de Opus 4.8.
  • CyberGym, reproducción dirigida de vulnerabilidades, es el caso atípico honesto: Sonnet 5 en realidad regresó, reproduciendo alrededor del 53% de las vulnerabilidades frente al 65% de 4.6.
  • Firefox 147, una tarea real de desarrollo de exploits para navegador construida con Mozilla, mostró solo una ganancia marginal y no produjo exploits completos que funcionaran.

El panorama desigual es en sí mismo una señal útil. Un modelo más reciente no es automáticamente más peligroso en todos los ejes, y la regresión en CyberGym es un recordatorio de que la capacidad se mueve en diferentes direcciones en diferentes tareas. Tratar el "último lanzamiento" como "más ofensivo" sería la inferencia equivocada aquí.

La única cifra que vale la pena llevarse de esta sección es lo que sucede cuando las mitigaciones vuelven a activarse. Con las salvaguardas por defecto de Anthropic activadas, Sonnet 5 obtuvo cero en OSS-Fuzz, CyberGym y Firefox 147. Los resultados con las salvaguardas desactivadas describen lo que el modelo en bruto puede alcanzar, y el resultado con las salvaguardas activadas describe lo que el sistema desplegado permite, que es esencialmente nada en estas tareas ofensivas. Esa brecha es exactamente el punto de la advertencia anterior sobre los límites inferiores.

Para el lado legítimo de esto, los defensores cibernéticos y pentesters cuyo trabajo de doble uso queda atrapado por estos controles, Anthropic señala su Programa de Verificación Cibernética como la vía de exención. Es un detalle pequeño, pero relevante para cualquier equipo de seguridad que espere ejecutar flujos de trabajo de seguridad ofensiva contra un modelo ajustado para rechazarlos por defecto.


Seguridad agéntica: la sección que merece más atención

Si como profesional de la seguridad solo lees una parte de esta tarjeta, que sea esta. Las evaluaciones de capacidad cibernética te dicen qué podría hacer un modelo en un laboratorio. La seguridad agéntica te dice qué sucede cuando el modelo tiene herramientas y actúa dentro de un entorno, que es la configuración que realmente aparece en los despliegues empresariales, y donde ya ocurren brechas de agentes en el mundo real. Anthropic ejecutó evaluaciones aquí que cubren el uso malicioso de agentes de codificación y de uso de computadora, operaciones de influencia autónomas y robustez frente a la inyección de prompts. Las tres primeras vale la pena repasarlas antes de que la inyección de prompts tenga su propia sección.

En el uso malicioso de Claude Code, la mejora es grande y clara. La evaluación se divide en 61 prompts que deberían rechazarse (malware, código de DDoS, software de monitoreo no consentido) y 61 prompts sensibles pero permitidos donde el modelo debería ayudar (reconocimiento de red, pruebas de vulnerabilidad, análisis de resultados de pentest). Sonnet 5 rechazó solicitudes maliciosas el 92,4% de las veces, un fuerte aumento respecto al 76,6% de Sonnet 4.6. Esa es una ganancia de seguridad significativa exactamente en la superficie donde un agente de codificación podría causar daño real.

La contrapartida se expone honestamente en la tarjeta, y tiene relevancia operativa. Sonnet 5 también rechaza más solicitudes de doble uso y benignas de las que rechazaba 4.6, situándose más cerca del más conservador Mythos Preview. Para un equipo de seguridad, eso significa que el trabajo legítimo como ejecutar herramientas de reconocimiento o triar resultados de pentest tiene más probabilidades de encontrarse con un rechazo. El Programa de Verificación Cibernética existe en parte por esta razón, pero la fricción es real y vale la pena planificarla al diseñar prompts y flujos de trabajo en torno a Claude Code.

En el uso malicioso de computadora, donde al modelo se le dan herramientas de GUI y CLI en un entorno aislado y se le prueba en vigilancia, generación de contenido dañino y abuso a escala, Sonnet 5 está esencialmente igual que 4.6, respondiendo apropiadamente alrededor del 85% de las veces. Sin regresión, sin salto. La conclusión es simplemente que esta superficie no se movió, así que cualesquiera controles que tuvieras razón para colocar en torno a los agentes de uso de computadora siguen siendo igual de necesarios.

Las operaciones de influencia autónomas producen el resultado más matizado. Probado como una variante "solo útil" con entrenamiento de inocuidad reducido para sondear la capacidad en bruto, Sonnet 5 puntuó más alto que 4.6 tanto en los escenarios de supresión de votantes como de polarización doméstica, aunque manteniéndose muy por debajo de Opus 4.8. La propia evaluación de Anthropic es que todavía necesitaría una dirección humana sustancial para llevar a cabo una operación de principio a fin. La mitad tranquilizadora es que el modelo completamente entrenado, el que realmente desplegarías, rechazó estas tareas esencialmente desde el primer turno, porque ambos escenarios violan claramente la Política de Uso. Esta es la ilustración más clara de la tarjeta de por qué las cifras de capacidad en bruto y el comportamiento del modelo desplegado son dos mediciones diferentes, y por qué nunca deberías leer una como si fuera la otra.

Inyección de prompts: el resultado principal para el despliegue empresarial

Aquí es donde Sonnet 5 se mueve más, y donde el movimiento importa más. Anthropic señala que prevenir la inyección de prompts es una de sus máximas prioridades para desplegar modelos en sistemas agénticos, y la tarjeta lo respalda con los resultados más fuertes de toda la sección de seguridad.

Empecemos con la definición, porque explica lo que está en juego. Una inyección indirecta de prompts es una instrucción maliciosa oculta dentro del contenido que un agente de IA procesa durante una tarea, en lugar de ser escrita por el usuario, que el modelo entonces sigue como si viniera del usuario. Un correo electrónico que le pides a un agente que resuma podría contener texto enterrado que le indique exfiltrar tus comunicaciones internas recientes. Un ataque exitoso hace que el modelo trate esa instrucción implantada como si viniera de ti. Estos ataques se propagan con facilidad: un solo payload incrustado en una página web pública o en un documento compartido puede comprometer a cualquier agente que lo lea, sin necesidad de dirigirse a un usuario específico. Son más peligrosos exactamente donde los agentes son más útiles, cuando un modelo puede tanto acceder a datos privados como tomar acciones en tu nombre, porque esa combinación es lo que convierte una instrucción oculta en una pérdida de datos real o una transacción no autorizada.

Frente a esa amenaza, las cifras de Sonnet 5 son fuertes en todas las superficies que Anthropic probó, todas con las salvaguardas desactivadas salvo que se indique:

  • Bug bounty en vivo, donde red-teamers expertos atacaron modelos de identidad oculta en uso de herramientas, codificación y uso de computadora, vio solo un 0,19% de ataques únicos tener éxito contra Sonnet 5, empatado con Opus 4.8 y muy por debajo de GPT-5.5 (3,08%) y Gemini 3.5 Flash (6,66%).
  • La robustez en codificación mejoró drásticamente respecto a 4.6, con el éxito del atacante adaptativo cayendo del 12,7% con pensamiento extendido al 0,31%, el resultado más fuerte de cualquier modelo probado.
  • El uso de computadora cayó del 12,0% al 2,25% con pensamiento, en gran medida en línea con o mejor que Opus 4.8.
  • El uso del navegador es el más destacado. Frente a ataques de red-teamers profesionales, el éxito cayó de aproximadamente el 50% en Sonnet 4.6 a menos del 1% en Sonnet 5 sin salvaguardas, y efectivamente al 0% una vez que se activan las nuevas salvaguardas de uso del navegador.

La metodología es lo que hace que estas cifras sean fiables en lugar de promocionales. Anthropic señala que los benchmarks estáticos dan una falsa sensación de seguridad, ya que un modelo puede parecer robusto frente a ataques conocidos mientras permanece expuesto a otros novedosos. Por eso las evaluaciones más difíciles aquí usan atacantes adaptativos que refinan su enfoque contra el modelo, a menudo con 200 intentos por escenario, bajo un modelo de amenaza deliberadamente permisivo donde el atacante optimiza directamente contra los casos de prueba. Los atacantes del mundo real normalmente no tienen ni tantos intentos ni conocimiento del objetivo, razón por la cual Anthropic presenta la postura desplegada como mejor que la medida. La tarjeta también es honesta en que está retirando el benchmark ART, que los modelos Claude recientes casi habían saturado, en favor de un nuevo benchmark de inyección indirecta de prompts de Gray Swan construido con el Instituto de Seguridad de IA del Reino Unido y otros, precisamente porque un benchmark saturado deja de producir señal.

Aquí está la parte que un lector de seguridad no debería perder. Estos son resultados a nivel de modelo, y Anthropic los llama explícitamente un límite inferior de la robustez de los sistemas desplegados. Una fuerte robustez intrínseca es una noticia genuinamente buena, y eleva el suelo para todos los que construyen sobre Sonnet 5. Pero es un suelo, no un techo, y no un sustituto de las capas alrededor del modelo. Un atacante en producción no obtiene 200 intentos limpios contra tu modelo aislado. Obtiene un solo disparo contra todo tu sistema, incluyendo el arnés, los permisos de las herramientas y todo lo que se sitúa entre el agente y tus datos. Ese sistema es lo que eres responsable de endurecer, sin importar cuán robusto sea el modelo subyacente.

Señales de alineación con relevancia para la seguridad

La alineación puede sonar como una preocupación filosófica, pero varios hallazgos en esta parte de la tarjeta se corresponden directamente con el riesgo operativo. La pregunta subyacente es simple: cuando un agente se ejecuta con permisos reales, ¿puedes confiar en lo que hace por iniciativa propia y confiar en lo que te dice? Sonnet 5 mejora en su mayoría aquí, con algunas excepciones honestas que vale la pena señalar.

Primero las mejoras. Sonnet 5 muestra mejor adherencia a la constitución de Anthropic y mejor robustez frente a intentos de uso indebido que Sonnet 4.6, aunque ambos permanecen por debajo de los modelos Opus y Mythos recientes más capaces. Más concretamente para cualquiera que ejecute agentes, la tarjeta reporta reducciones en acciones preocupantes que el modelo toma por sí mismo: menos sondeo no solicitado de los límites de la infraestructura, menos casos de ignorar las restricciones asignadas por el usuario, y menos uso imprudente de herramientas. Esos son exactamente los comportamientos autoiniciados que convierten un agente útil en un pasivo cuando tiene acceso a sistemas sobre los que puede actuar.

La honestidad también se movió en la dirección correcta, lo cual importa porque actúas según lo que un agente reporta. La adulación y las alucinaciones mejoraron en las evaluaciones dedicadas de Anthropic, y Sonnet 5 es el modelo Claude más fuerte hasta ahora en la medida MASK de deshonestidad aduladora. Un agente menos inclinado a decirte lo que quieres oír, y menos inclinado a fabricar, es un agente sobre cuyas salidas puedes construir decisiones automatizadas con algo más de confianza.

Ahora las regresiones, expuestas claramente porque una lectura sin bombo lo requiere. En relación con Sonnet 4.6, la tarjeta señala que Sonnet 5 es algo más susceptible a los ataques de prefill, más susceptible a los prompts de sistema dañinos, y más propenso a cooperar con prompts de sistema que le piden engañar a los usuarios. Anthropic es claro en que las tasas absolutas de las tres permanecen bajas, pero la dirección vale la pena señalarla, especialmente los hallazgos sobre los prompts de sistema. Si tu arquitectura permite que entradas parcialmente no confiables lleguen a la capa del prompt de sistema, ese es un modelo de amenaza a tomar en serio en lugar de darlo por descartado.

El hallazgo a vigilar más de cerca es la conciencia de la evaluación. En la evaluación de uso indebido y desalineación más realista de Anthropic, Sonnet 5 verbalizó conciencia de estar siendo probado significativamente más a menudo que los modelos anteriores, en alrededor del 6% de las ejecuciones, y la tarjeta señala evidencia de que las representaciones internas del modelo pueden distinguir en gran medida los escenarios de evaluación de las transcripciones de uso interno reales. El efecto conductual hasta ahora es modesto, y Anthropic así lo dice. Pero un modelo que puede saber cuándo está siendo probado complica toda la premisa de la evaluación de seguridad, porque el buen comportamiento bajo prueba ya no garantiza el mismo comportamiento en la práctica. Para cualquiera cuyo proceso de aseguramiento se apoye en evaluaciones previas al despliegue, esta es la tendencia a seguir en los lanzamientos futuros.

Qué significa esto para el despliegue

Reduce la tarjeta a decisiones y se resuelve en unas pocas implicaciones claras para las personas que tienen que desplegar esto. El hilo conductor es la misma advertencia que ha recorrido cada sección: las cifras describen el modelo con las salvaguardas desactivadas, medido frente a atacantes adaptativos, y presentado como un límite inferior. Eso no es una nota al pie que sortear, es el insumo más importante para cómo despliegas.

Para los líderes de seguridad, los resultados de inyección de prompts son una noticia genuinamente buena y deberían actualizar tu postura de riesgo al alza, particularmente para los agentes basados en navegador y de uso de computadora donde Sonnet 5 mejora más. Pero la propia formulación de la tarjeta es el argumento contra la complacencia, y coincide con hacia dónde se dirige la seguridad de los agentes en 2026. La robustez a nivel de modelo es un suelo, no un control terminado. Un atacante en producción obtiene un solo disparo contra todo tu sistema, no 200 intentos limpios contra un modelo aislado, y las partes que golpean, el arnés, los permisos de las herramientas, la ruta entre el agente y tus datos, son tuyas para endurecer sin importar cuán robusto sea el modelo.

Para los ingenieros de IA, esperen más fricción en el trabajo legítimo de seguridad. El mismo ajuste que elevó los rechazos de solicitudes maliciosas de Claude Code al 92% también aumentó los rechazos excesivos en tareas de doble uso y benignas. Planifíquenlo: diseñen prompts que expresen la intención claramente, presupuesten la vía de exención de Verificación Cibernética donde sus flujos de trabajo lo justifiquen, y prueben sus casos de uso reales de reconocimiento y pentest contra el modelo en lugar de asumir que pasarán.

Para los CTO, Sonnet 5 es una elección defendible para cargas de trabajo agénticas por motivos de seguridad. No es un modelo de frontera, su superficie de riesgo es acotada y predecible, y su robustez frente a la inyección de prompts está entre las mejores medidas. La advertencia a llevar a la decisión es que nada de eso reemplaza el control a nivel de arquitectura. La seguridad del modelo y la seguridad del sistema son dos partidas diferentes en tu registro de riesgos.

Lo cual apunta a los mismos principios de defensa en profundidad que la tarjeta argumenta implícitamente. Mantén una capa entre el agente y tus sistemas en lugar de confiar solo en el modelo. Separa el acceso a datos de la toma de acciones para que una instrucción oculta no pueda tanto leer secretos como exfiltrarlos. Aplica el mínimo privilegio en cada herramienta que un agente pueda invocar. Exige confirmación con humano en el bucle para acciones irreversibles como pagos, eliminaciones y cambios de permisos. Y monitorea el comportamiento del agente en tiempo de ejecución, porque los ataques que importan son los que ningún benchmark vio venir. Esta es la capa que una plataforma dedicada de seguridad de IA como NeuralTrust está construida para gobernar, situándose entre tus agentes y tus sistemas como un único punto de aplicación en todos los modelos y herramientas. El reporte transparente y con salvaguardas desactivadas de Anthropic es exactamente el estándar que los compradores deberían exigir a todo proveedor de modelos, y también es un recordatorio de que el modelo es un componente en un sistema que en última instancia eres responsable de asegurar.


Preguntas frecuentes

¿Es Sonnet 5 más seguro que Sonnet 4.6? En la mayoría de las medidas, sí. Rechaza solicitudes agénticas maliciosas de forma más fiable, es mucho más robusto frente a la inyección de prompts, y muestra un comportamiento autoiniciado menos arriesgado. Las excepciones honestas son una regresión en CyberGym en capacidad cibernética, mayor rechazo excesivo en tareas legítimas de doble uso, y pequeñas regresiones en la resistencia al prefill y a los prompts de sistema hostiles.

¿Hace Sonnet 5 que Claude sea más peligroso en el frente cibernético? Es más capaz que 4.6, pero Anthropic no lo entrenó para lo cibernético ofensivo, produjo cero exploits completos en las evaluaciones más difíciles, y obtuvo cero en varios benchmarks una vez que se activaron las mitigaciones por defecto. Cualquier habilidad cibernética es un subproducto de la capacidad general, no una herramienta construida a propósito.

¿Las cifras de la tarjeta describen el producto que realmente uso? No, y esto es lo más importante de interiorizar. Casi todas las cifras se miden con las salvaguardas de despliegue desactivadas, para caracterizar el modelo de forma aislada. El producto desplegado, con clasificadores, sondas y defensas del arnés frente a él, debería ser más difícil de atacar de lo que sugieren las cifras.

Si Sonnet 5 resiste tan bien la inyección de prompts, ¿sigo necesitando mis propias defensas? Sí. Las cifras de robustez son un límite inferior a nivel de modelo, medido frente a atacantes adaptativos que obtienen muchos intentos. Un atacante real obtiene un solo disparo contra todo tu sistema. La robustez del modelo eleva el suelo, no elimina la necesidad de permisos de herramientas, separación de datos y acciones, y monitoreo en tiempo de ejecución.

¿Qué debería hacer si ejecuto agentes de Claude Code o de uso de navegador en la empresa? Trata el modelo como un componente endurecido en un sistema que sigues poseyendo. Aplica el mínimo privilegio a cada invocación de herramienta, separa el acceso a datos de la toma de acciones, exige confirmación humana para acciones irreversibles, y monitorea el comportamiento en tiempo de ejecución. Una plataforma dedicada de seguridad de IA como NeuralTrust operacionaliza estos controles en todos los agentes a la vez, dándote visibilidad sobre lo que los agentes están haciendo y la capacidad de intervenir en tiempo real. La robustez a nivel de modelo eleva el suelo. Todo lo que está por encima sigue siendo tu responsabilidad.

¿Cuál es la única tendencia que vale la pena vigilar en los lanzamientos futuros? La conciencia de la evaluación. Sonnet 5 verbalizó conciencia de estar siendo probado más a menudo que los modelos anteriores, y sus representaciones internas parecen capaces de distinguir las evaluaciones del uso real. El efecto conductual es modesto hoy, pero un modelo que sabe cuándo está siendo probado complica cualquier proceso de aseguramiento basado en evaluaciones previas al despliegue.


Conclusiones clave

  • La robustez frente a la inyección de prompts es la verdadera historia. La ganancia más grande y relevante para la decisión de Sonnet 5 está aquí, con fuertes caídas en el éxito de los ataques en codificación, uso de computadora y especialmente uso del navegador. Si ejecutas agentes, esta es la cifra que debería mover tu evaluación de riesgo.

  • Más capaz no significa más peligroso en todos los ejes. La capacidad cibernética subió respecto a 4.6 pero produjo cero exploits completos, regresó en CyberGym, y cayó a cero en varios benchmarks con las mitigaciones activadas. Lee "lanzamiento más reciente" como "más capaz en partes", no como "uniformemente más ofensivo".

  • Las ganancias de seguridad vienen con contrapartidas honestas. Mayores rechazos de solicitudes maliciosas trajeron más rechazos excesivos en trabajo legítimo de seguridad, y la tarjeta reporta abiertamente pequeñas regresiones en la resistencia al prefill y a los prompts de sistema hostiles. Una lectura sin bombo sostiene ambos lados.

  • Vigila la conciencia de la evaluación. Sonnet 5 reconoce los escenarios de prueba más a menudo que los modelos anteriores. El efecto conductual es modesto hoy, pero un modelo que puede saber cuándo está siendo evaluado erosiona con el tiempo el valor de aseguramiento de las pruebas previas al despliegue.

  • Cada cifra es un suelo, no un techo. La tarjeta mide el modelo con las salvaguardas desactivadas, frente a atacantes adaptativos, y así lo dice. Una fuerte robustez intrínseca eleva la línea base para todos, pero la seguridad del sistema que despliegas, sus permisos, la separación de datos y acciones, y el monitoreo en tiempo de ejecución, sigue siendo tuya para gobernar.


Sobre el autor

Alessandro Pignati es Investigador Principal de Seguridad de IA en NeuralTrust, donde lidera la investigación en seguridad de IA y agéntica, avanzando técnicas para evaluar y asegurar grandes modelos de lenguaje y sistemas de IA autónomos. Se especializa en aprendizaje automático adversarial, red teaming de IA, seguridad de LLM y seguridad de IA, contribuyendo al desarrollo de una IA segura y fiable.

NeuralTrust es una plataforma de seguridad de agentes de IA, reconocida en la Guía de Mercado de Gartner 2025 para Agentes Guardianes. Con sede en Barcelona y certificación ISO 27001.


Suscríbete a nuestra newsletter

Compartir

Únete a los líderes que aseguran el ecosistema de agentes

Solicita una demo