NeuralTrust anunció su contribución al Manual de Red Teaming para GenAI (v1.0) recientemente publicado por el OWASP GenAI Security Project, ahora abierto a comentarios públicos. El manual proporciona una metodología práctica y basada en la comunidad para las pruebas adversarias de sistemas de IA generativa y agéntica, reforzando el compromiso continuo de NeuralTrust con el avance de estándares abiertos para la seguridad de la IA.
A medida que las organizaciones trasladan los grandes modelos de lenguaje y los agentes de IA autónomos de la experimentación a la producción, la necesidad de pruebas adversarias estructuradas y repetibles se ha vuelto urgente. Las pruebas de penetración tradicionales y los manuales de seguridad de aplicaciones no fueron diseñados para sistemas que razonan, recuperan datos externos, invocan herramientas y toman decisiones por sí mismos. El Manual de Red Teaming para GenAI fue creado para cerrar esta brecha, brindando a los red teamers, investigadores de seguridad y profesionales un marco común para evaluar la seguridad, la protección, la robustez y la fiabilidad de los modelos y aplicaciones de GenAI.
En su esencia, el manual responde a una pregunta práctica: ¿cómo se prueba realmente un sistema de IA en busca de debilidades antes de que lo haga un atacante? Lo hace guiando a los profesionales a través de todo el proceso como un proceso repetible, en lugar de una colección de trucos improvisados. La metodología está organizada en ocho fases. Comienza con la Planificación y Definición del Alcance, donde los equipos definen objetivos, reúnen la combinación adecuada de habilidades y establecen las reglas de participación, y avanza hacia el Reconocimiento y Fingerprinting, donde los evaluadores recopilan inteligencia sobre el diseño, el comportamiento y las defensas de un objetivo — por ejemplo, infiriendo qué familia de modelos impulsa un sistema a partir de cómo rechaza solicitudes inseguras. A partir de ahí, el Mapeo de la Superficie traza cada punto donde el sistema puede ser alcanzado o influenciado, delineando los límites de confianza, los flujos de datos y las salvaguardas destinadas a protegerlos, y superpone taxonomías de amenazas conocidas sobre ese mapa para convertir la arquitectura en un plan de pruebas concreto.
Las fases intermedias son donde las pruebas se vuelven activas. La Explotación abarca los ataques prácticos en sí mismos: inyección de prompts, jailbreaks, envenenamiento de datos de entrenamiento y de bases de conocimiento RAG, extracción de modelos, y ataques ocultos en imágenes, audio o código generado, organizados según el tipo de daño que cada uno persigue. La Persistencia y Escalada examina si un compromiso puede sobrevivir más allá de una única sesión de chat al corromper la memoria o las herramientas de un agente, y si un atacante puede empujar al sistema hacia acciones que debería tener restringidas. La Post-Explotación e Impacto da entonces un paso atrás para medir las consecuencias reales: qué datos quedaron expuestos, hasta dónde se extiende el radio de impacto y cuán grave es el hallazgo en una escala de riesgo consistente.
Las fases finales convierten los hallazgos en una defensa duradera. La Evaluación e Informes introduce una puntuación rigurosa y reproducible, incluyendo métricas como la Tasa de Éxito de Ataques, el recall, la tasa de falsos positivos y pass@k, de modo que los resultados se mantengan válidos a lo largo de las actualizaciones de los modelos y puedan comunicarse claramente a audiencias ejecutivas, de ingeniería y de cumplimiento. El Post-Compromiso y Remediación cierra el ciclo emparejando cada exploit confirmado con un artefacto de detección defensiva, retroalimentando los ataques exitosos hacia los pipelines de CI/CD como pruebas de regresión y hacia las reglas de monitoreo del blue team. A lo largo de todo el manual, se vincula su metodología con marcos establecidos, incluyendo el OWASP Top 10 para Aplicaciones LLM, el OWASP Top 10 para Aplicaciones Agénticas, MITRE ATLAS y el Marco de Gestión de Riesgos de IA del NIST, de modo que las pruebas permanezcan trazables y auditables.
La contribución de NeuralTrust refleja el trabajo que nuestro equipo de investigación realiza en el campo cada día. El equipo de NeuralTrust se unió a colaboradores de toda la comunidad de seguridad de la IA para ayudar a dar forma al manual. La técnica Echo Chamber de NeuralTrust, un jailbreak multi-turno que envenena el contexto conversacional al inducir a un modelo a referenciar sus propias respuestas previas hasta que los filtros de seguridad se erosionan, aparece en el apéndice del manual como un ejemplo adversario del mundo real, incluyendo su uso documentado contra modelos de frontera.
"Red teaming is how AI security moves from theory to practice", dijo un portavoz de NeuralTrust. "Una metodología compartida y práctica significa que las organizaciones ya no tienen que inventar su enfoque de pruebas desde cero. Este es exactamente el tipo de trabajo abierto y colaborativo que la industria necesita a medida que la GenAI se adentra más en la producción."
Al contribuir al Manual de Red Teaming para GenAI, NeuralTrust busca ayudar a la comunidad de seguridad en general a construir una base común para comprender y mitigar los riesgos introducidos por la IA generativa y agéntica. El borrador se encuentra ahora en un período de comentarios públicos, y se invita a la comunidad a revisarlo y aportar comentarios sobre qué debería añadirse, aclararse, ampliarse o cuestionarse.
Acerca de NeuralTrust
NeuralTrust ayuda a las organizaciones a adoptar la IA generativa de forma segura y a escala. Su plataforma proporciona seguridad en tiempo de ejecución, detección de amenazas y riesgos de IA, y capacidades de seguridad de agentes diseñadas para hacer que los sistemas de IA sean medibles, fiables y confiables a lo largo de todo su ciclo de vida.
Acerca de OWASP
El Open Worldwide Application Security Project (OWASP) es una fundación sin fines de lucro dedicada a mejorar la seguridad del software. A través de proyectos de código abierto, iniciativas lideradas por la comunidad y guías ampliamente adoptadas por la industria, OWASP ayuda a organizaciones de todo el mundo a construir aplicaciones y sistemas más seguros.
)