La gestión del riesgo de IA es el proceso estructurado de identificar, evaluar, tratar y monitorizar continuamente los riesgos que crean los sistemas de IA a lo largo de todo su ciclo de vida, desde riesgos a nivel de modelo como la alucinación y el sesgo, hasta riesgos a nivel de datos como el envenenamiento y la filtración, y riesgos operativos como la inyección de prompts y el exceso de agencia.
Amplía la gestión del riesgo empresarial clásica (ISO 31000:2018) con métodos de identificación y criterios de puntuación específicos de la IA, operacionalizados a través de marcos como el NIST AI RMF. Un único incidente de IA, un agente de atención al cliente manipulado mediante jailbreak, un modelo de scoring crediticio sesgado, puede costar más en remediación, sanciones y daño reputacional de lo que habría costado construir un programa estructurado de gobernanza de IA durante un año.
TL;DR - Puntos Clave
- El riesgo de IA se divide en tres categorías que requieren métodos de identificación diferentes: riesgos a nivel de modelo (alucinación, sesgo), riesgos a nivel de datos (envenenamiento, filtración, deriva) y riesgos operativos (inyección de prompts, exceso de agencia, cadena de suministro).
- La puntuación de riesgo específica de IA utiliza un modelo de tres factores: Probabilidad × Impacto × Explotabilidad, que amplía la fórmula clásica de probabilidad × impacto utilizada en la ISO 31000 y en la puntuación de riesgo de ciberseguridad tradicional.
- El tratamiento sigue las cuatro vías estándar de la ISO 31000: aceptar, mitigar, transferir o evitar, pero los riesgos de IA requieren controles específicos de IA (validación de entradas, filtrado de salidas, supervisión humana) que los tratamientos de riesgo de TI tradicionales no cubren.
- La monitorización continua no es negociable para el riesgo de IA: a diferencia del software tradicional, el comportamiento de un sistema de IA puede derivar después del despliegue sin ningún cambio de código, lo que hace insuficiente la evaluación de riesgo puntual.
- Los productos TrustGuard y TrustLens de NeuralTrust proporcionan la monitorización del comportamiento continua y las alertas que operacionalizan la gestión del riesgo de IA después de la evaluación inicial.
¿Qué es la gestión del riesgo de IA?
La gestión del riesgo de IA es el proceso estructurado de identificar, evaluar, tratar y monitorizar continuamente los riesgos introducidos por los sistemas de IA a lo largo de su ciclo de vida, desde el diseño inicial hasta el despliegue, la operación y la eventual retirada del servicio.
Se construye directamente sobre la gestión del riesgo empresarial clásica. La ISO 31000:2018, el estándar internacional para la gestión del riesgo, define el riesgo como "el efecto de la incertidumbre sobre los objetivos" y establece ocho principios para una gestión del riesgo eficaz: que debe estar integrada en las actividades organizativas, ser estructurada e integral, estar adaptada al contexto, ser inclusiva con las partes interesadas, ser dinámica, basarse en la mejor información disponible, atender a los factores humanos y culturales, y estar sujeta a mejora continua. La ISO 31000 no es un estándar certificable — proporciona directrices y un punto de referencia, no una certificación.
Definición: Gestión del riesgo de IA = la aplicación de identificación, puntuación, tratamiento y monitorización estructurados del riesgo — ampliando los principios de la ISO 31000 — a los riesgos específicos de los sistemas de IA: el comportamiento del modelo, los datos de entrenamiento e inferencia, y el contexto operativo en el que opera el sistema de IA.
Lo que distingue a la gestión del riesgo de IA de la gestión del riesgo de TI tradicional es que los sistemas de IA introducen modos de fallo que no tienen equivalente en el software convencional. Una aplicación tradicional o tiene un error o no lo tiene. Un sistema de IA puede comportarse correctamente en las pruebas y luego derivar, alucinar o ser manipulado en producción, sin ningún cambio de código. Por eso el NIST AI RMF 1.0 dedica una función completa (MEASURE) al problema de cuantificar el riesgo específico de la IA de forma continua, no solo en el momento del despliegue.
)
¿Cuáles son las tres categorías de riesgo de IA?
El riesgo de IA empresarial se divide en tres categorías distintas, cada una de las cuales requiere métodos de identificación diferentes y propietarios distintos dentro de la organización.
| Categoría de riesgo | Qué cubre | Ejemplo de fallo | Propietario principal |
|---|---|---|---|
| Riesgo a nivel de modelo | Riesgos inherentes al propio modelo de IA: precisión, sesgo, alucinación, robustez | Un LLM genera con confianza una afirmación falsa presentada como un hecho (confabulación) | Ciencia de Datos / Ingeniería de ML |
| Riesgo a nivel de datos | Riesgos en los datos de entrenamiento, ajuste fino o inferencia: envenenamiento, filtración, deriva, procedencia | Los datos de entrenamiento contienen información de identificación personal que el modelo expone posteriormente | Gobernanza de Datos / Privacidad |
| Riesgo operativo | Riesgos en cómo se despliega y utiliza el sistema de IA: inyección de prompts, exceso de agencia, cadena de suministro, Shadow AI | Un atacante manipula un chatbot de cara al cliente para que ejecute acciones no autorizadas | Seguridad / Gobernanza de IA |
1. Riesgos a nivel de modelo
Los riesgos a nivel de modelo incluyen las características de confiabilidad que define el NIST AI RMF: validez y fiabilidad, seguridad, seguridad y resiliencia, responsabilidad y transparencia, explicabilidad e interpretabilidad, mejora de la privacidad, y equidad con gestión del sesgo perjudicial. El NIST AI 600-1, el perfil de IA generativa, añade la confabulación como una categoría de riesgo nombrada específica de los LLMs.
2. Riesgos a nivel de datos
Los riesgos a nivel de datos van más allá de las preocupaciones clásicas de calidad de datos. El envenenamiento de datos de entrenamiento — la corrupción deliberada del conjunto de entrenamiento de un modelo — y el envenenamiento de RAG — la inyección de contenido malicioso en las bases de conocimiento de generación aumentada por recuperación — son riesgos de datos específicos de la IA sin equivalente en la gobernanza de datos tradicional. El OWASP Top 10 para Aplicaciones LLM clasifica el envenenamiento de datos de entrenamiento como LLM04.
3. Riesgos operativos
Los riesgos operativos son donde realmente ocurren la mayoría de los incidentes de IA en producción. La inyección de prompts ocupa el puesto #1 en el OWASP LLM Top 10 (LLM01:2025). El exceso de agencia — otorgar a un sistema de IA más permisos de los que requiere su tarea — es el mecanismo detrás de la mayoría de los incidentes de agentes de IA de alta gravedad, porque determina el radio de impacto cuando un ataque tiene éxito.
¿Cómo se puntúa el riesgo de IA?
Una vez identificado un riesgo, debe puntuarse para determinar su prioridad y la asignación de recursos. La fórmula clásica de puntuación de riesgo utilizada en ciberseguridad y gestión del riesgo empresarial multiplica la probabilidad por el impacto: Riesgo = Probabilidad × Impacto. Esta fórmula está integrada en el software de gestión del riesgo empresarial más utilizado y sustenta la metodología estándar de mapas de calor de riesgo.
Para los sistemas de IA, NeuralTrust recomienda ampliar esto a un modelo de tres factores que tenga en cuenta la naturaleza única de la explotación de la IA:
Puntuación de Riesgo = Probabilidad × Impacto × Explotabilidad
- Probabilidad: ¿Qué probabilidad hay de que este riesgo se materialice, dada la exposición actual del sistema de IA, sus fuentes de datos y su contexto de despliegue? Se puntúa en una escala de raro a casi seguro.
- Impacto: ¿Cuál es la gravedad de la consecuencia si el riesgo ocurre — pérdida financiera, exposición regulatoria, daño reputacional, daño a la seguridad? Se puntúa de insignificante a severo.
- Explotabilidad: ¿Con qué facilidad puede un adversario o una condición no intencionada desencadenar este riesgo? Este factor es lo que distingue la puntuación de riesgo de IA de la puntuación de riesgo empresarial genérica — tiene en cuenta lo accesible que es la superficie de ataque (un chatbot de cara al público es más explotable que un modelo interno de procesamiento por lotes) y cuánta habilidad técnica se requiere para explotarlo.
)
Este enfoque de tres factores refleja la dirección del propio Sistema de Puntuación de Vulnerabilidades de IA de OWASP (AIVSS), que proporciona una metodología cuantificable para puntuar la gravedad y la explotabilidad de las vulnerabilidades específicas de los sistemas LLM, de IA generativa y de IA agéntica.
La puntuación en la práctica: Puntúa cada factor en una escala de 1 a 5. Multiplica las tres puntuaciones para producir una puntuación de riesgo compuesta de 1 a 125. Establece los umbrales de tratamiento de antemano — por ejemplo, cualquier riesgo con una puntuación superior a 60 requiere mitigación obligatoria antes del despliegue; las puntuaciones entre 30 y 60 requieren aceptación documentada del riesgo por parte de un propietario designado; las puntuaciones inferiores a 30 pueden aceptarse sin más acción.
¿Cómo se trata el riesgo de IA una vez puntuado?
La ISO 31000 define cuatro vías estándar de tratamiento del riesgo, todas las cuales se aplican al riesgo de IA, pero cada una requiere una implementación específica de IA:
1. Aceptar — Documentar el riesgo residual y asignar un propietario responsable. Apropiado para riesgos con puntuación baja donde el coste de la mitigación supera el daño esperado. Cada riesgo de IA aceptado debe registrarse en el registro de riesgos de IA de la organización con una fecha de revisión.
2. Mitigar — Aplicar controles que reduzcan la probabilidad, el impacto o la explotabilidad. Para los sistemas de IA, esto típicamente significa:
- Validación de entradas y defensa contra inyección de prompts — inspección en tiempo de ejecución de cada entrada para detectar y bloquear intentos de manipulación adversarial.
- Filtrado de salidas — escanear las salidas de IA en busca de violaciones de políticas, filtración de datos sensibles y contenido alucinado antes de que lleguen a los usuarios o sistemas posteriores.
- Acceso de mínimos privilegios — limitar qué herramientas, datos y sistemas puede alcanzar un agente de IA, reduciendo directamente los factores de explotabilidad e impacto del riesgo de exceso de agencia.
- Puntos de control con intervención humana — confirmación humana obligatoria para acciones de alto riesgo o irreversibles.
3. Transferir — Trasladar la consecuencia financiera del riesgo a un tercero, típicamente a través de un seguro cibernético o indemnización contractual con proveedores de IA. La transferencia no reduce la probabilidad ni el impacto operativo de un riesgo de IA — solo redistribuye la consecuencia financiera.
4. Evitar — Retirar el sistema de IA del servicio o no desplegarlo. Apropiado cuando una puntuación de riesgo sigue siendo inaceptablemente alta incluso después de las mitigaciones disponibles, o cuando el caso de uso de IA cae en una categoría prohibida bajo la normativa aplicable, como las prácticas prohibidas del Artículo 5 de la Ley de IA de la UE.
TrustGuard de NeuralTrust operacionaliza la vía de mitigación para el riesgo operativo, proporcionando monitorización del comportamiento en tiempo real, detección de anomalías y los registros de auditoría a prueba de manipulaciones necesarios para demostrar el tratamiento continuo del riesgo a auditores y reguladores.
Ejemplo práctico: Puntuación de riesgo para un agente de atención al cliente basado en LLM
Consideremos un despliegue empresarial habitual: un agente de atención al cliente basado en LLM con acceso a una base de datos de clientes y la capacidad de emitir reembolsos de hasta 500 € sin aprobación humana.
Paso 1 — Identificar el riesgo. El agente tiene exceso de agencia: la autoridad de reembolso combinada con la manipulación conversacional crea una vía para que un atacante extraiga reembolsos no autorizados mediante inyección de prompts.
Paso 2 — Puntuar el riesgo.
| Factor | Puntuación (1–5) | Justificación |
|---|---|---|
| Probabilidad | 4 | Chatbot de cara al público; la inyección de prompts es el vector de ataque LLM documentado #1 |
| Impacto | 3 | Pérdida financiera limitada a 500 € por incidente, pero riesgo reputacional y de patrón de fraude si se explota a gran escala |
| Explotabilidad | 4 | No se requieren herramientas especializadas; las técnicas de jailbreak documentadas están disponibles públicamente |
| Puntuación compuesta | 48 | (4 × 3 × 4) — cae en el rango de "aceptación documentada del riesgo o mitigación obligatoria" |
Paso 3 — Tratar el riesgo. Dada la puntuación compuesta, se requiere mitigación antes del despliegue: implementar detección de inyección de prompts en la capa de pasarela, limitar aún más los permisos de la herramienta de reembolso (por ejemplo, requerir aprobación humana por encima de 100 €), y añadir filtrado de salidas para detectar y bloquear intentos de extraer autorización de reembolso mediante manipulación conversacional.
Paso 4 — Monitorizar de forma continua. Desplegar monitorización del comportamiento para detectar patrones anómalos de solicitudes de reembolso tras el despliegue — un aumento repentino de intentos de reembolso desde un único rango de IP o patrón de sesión es la señal de que los controles de mitigación están siendo probados o eludidos.
Este ejemplo práctico ilustra por qué la evaluación de riesgo estática y puntual es insuficiente para los sistemas de IA: el perfil de riesgo del mismo agente cambia si cambian sus permisos, si se publica una nueva técnica de jailbreak, o si cambia el comportamiento del atacante, ninguno de los cuales requiere un cambio de código en el modelo subyacente.
¿Cómo se relaciona la gestión del riesgo de IA con el NIST AI RMF y la ISO 31000?
La gestión del riesgo de IA no es una disciplina independiente — es la capa operativa que se sitúa entre la gestión del riesgo empresarial general (ISO 31000) y los marcos de gobernanza de IA (NIST AI RMF, ISO 42001).
| Marco | Función en la gestión del riesgo de IA |
|---|---|
| ISO 31000:2018 | Proporciona los principios, el marco y el proceso fundamentales de gestión del riesgo, aplicables a todo el riesgo organizativo, incluida la IA. No es certificable. |
| NIST AI RMF 1.0 | Operacionaliza la gestión del riesgo específicamente para la IA a través de cuatro funciones: GOVERN, MAP, MEASURE, MANAGE. La función MAP identifica el contexto de riesgo específico de la IA; MEASURE lo cuantifica; MANAGE lo trata. |
| NIST AI 600-1 | Amplía el NIST AI RMF con 12 categorías de riesgo específicas de la IA generativa, incluyendo la confabulación y la inyección de prompts, informando directamente las categorías de riesgo a nivel de modelo y operativo anteriores. |
| OWASP Top 10 para Aplicaciones LLM | Proporciona la taxonomía de ataques específica (inyección de prompts, envenenamiento de datos, exceso de agencia, etc.) en la que se basa la identificación del riesgo de IA. |
Para la hoja de ruta de implementación completa que conecta estos marcos, consulta nuestra Guía de Implementación Paso a Paso del NIST AI RMF 1.0 y la Guía Completa de Gobernanza de la IA.
Preguntas frecuentes sobre la gestión del riesgo de IA
¿Cuál es la diferencia entre la gestión del riesgo de IA y la gobernanza de IA?
La gobernanza de IA es el marco organizativo más amplio — políticas, estructuras de responsabilidad y órganos de supervisión — que determina cómo una organización gestiona la IA en general. La gestión del riesgo de IA es la disciplina operativa específica dentro de la gobernanza centrada en identificar, puntuar, tratar y monitorizar los riesgos de IA individuales. La gobernanza responde a "quién decide y cuál es la política"; la gestión del riesgo responde a "qué podría salir mal con este sistema de IA específico, y qué hacemos al respecto".
¿Cuáles son los riesgos de IA más comunes a los que se enfrentan las empresas?
Basándose en el OWASP Top 10 para Aplicaciones LLM y el NIST AI 600-1, los riesgos de IA más comunes incluyen la inyección de prompts (manipular sistemas de IA mediante entradas elaboradas), la filtración de datos (sistemas de IA que exponen datos de entrenamiento o contexto sensibles), la alucinación o confabulación (la IA genera información falsa presentada como un hecho), el exceso de agencia (sistemas de IA con más permisos de los que requiere su tarea) y el envenenamiento de datos de entrenamiento (corrupción maliciosa de conjuntos de datos de entrenamiento o recuperación).
¿Con qué frecuencia deben actualizarse las evaluaciones de riesgo de IA?
Las evaluaciones de riesgo de IA no deben tratarse como ejercicios puntuales. La función MAP del NIST AI RMF exige explícitamente seguir aplicando la evaluación de riesgos a medida que evolucionan el contexto, las capacidades y los impactos potenciales. En la práctica, esto significa revisar las puntuaciones de riesgo de IA cada vez que cambien los permisos de un sistema, cuando se documenten públicamente nuevas técnicas de ataque, de forma trimestral para los sistemas de alto riesgo, e inmediatamente después de cualquier incidente de seguridad que involucre al sistema.
¿Se puede eliminar por completo el riesgo de IA?
No. Debido a la naturaleza no determinista de los modelos de IA, el riesgo de IA no puede reducirse a cero. El objetivo de la gestión del riesgo de IA es reducir el riesgo a un nivel aceptable dado el apetito de riesgo de la organización, utilizando las cuatro vías de tratamiento — aceptar, mitigar, transferir, evitar — y mantener una monitorización continua para detectar cuándo cambia el riesgo residual.
¿Qué herramientas apoyan la gestión del riesgo de IA?
La gestión del riesgo de IA requiere herramientas en las fases de identificación (inventario y descubrimiento de sistemas de IA), puntuación (registros de riesgo con criterios específicos de IA), tratamiento (protección en tiempo de ejecución y controles de acceso) y monitorización (análisis del comportamiento y alertas). TrustLens de NeuralTrust apoya la identificación y la puntuación de riesgo continua mediante el descubrimiento de sistemas de IA y la monitorización de la postura, mientras que TrustGuard proporciona la capa de tratamiento y monitorización en tiempo de ejecución para los agentes de IA desplegados.
Conclusiones clave
- El riesgo de IA se divide en tres categorías — a nivel de modelo, a nivel de datos y operativo — cada una de las cuales requiere métodos de identificación y propietarios organizativos diferentes.
- La puntuación de riesgo específica de IA amplía la fórmula clásica de Probabilidad × Impacto con un tercer factor, la Explotabilidad, que refleja lo accesible que es la superficie de ataque de un sistema de IA y cuánta habilidad se requiere para explotarla.
- Las cuatro vías de tratamiento de la ISO 31000 — aceptar, mitigar, transferir, evitar — se aplican todas al riesgo de IA, pero la mitigación requiere controles específicos de IA: validación de entradas, filtrado de salidas, acceso de mínimos privilegios y puntos de control con intervención humana.
- La evaluación de riesgo estática y puntual es insuficiente para los sistemas de IA porque los perfiles de riesgo cambian sin ningún cambio de código, a través de cambios de permisos, nuevas técnicas de ataque o patrones de uso cambiantes.
- TrustLens y TrustGuard de NeuralTrust proporcionan juntos la identificación continua, la puntuación y la monitorización del comportamiento que operacionalizan la gestión del riesgo de IA después de la evaluación inicial.
Artículos relacionados
- La Guía Completa de Gobernanza de la IA: Marcos, Políticas y Mejores Prácticas (2026) — El artículo central de este pilar, que cubre la hoja de ruta de implementación de gobernanza completa.
- NIST AI RMF 1.0: Guía de Implementación Paso a Paso para Empresas (2026) — Cómo las funciones MAP y MEASURE operacionalizan la identificación y puntuación del riesgo de IA en detalle.
- Cumplimiento de la Ley de IA de la UE para Empresas: Qué Debes Hacer Antes de la Aplicación Plena — Cómo se mapea la clasificación de riesgo de IA con los niveles de riesgo de la Ley de IA de la UE y los requisitos obligatorios de conformidad.
- Marcos de Gobernanza de IA Comparados: NIST, ISO 42001, Ley de IA de la UE y Principios de la OCDE — Cómo se complementan entre sí los cuatro marcos principales en un programa de gobernanza de IA.
Sobre el autor
Roger Howroyd es Head of Global SEO and AI en NeuralTrust, donde lidera la estrategia de búsqueda de la compañía en SEO, AEO, GEO y optimización para LLMs, posicionando a NeuralTrust como la referencia en seguridad para agentes de IA tanto en motores de búsqueda como en sistemas de IA generativa. Está especializado en búsqueda potenciada por IA, estrategia de contenidos, desarrollo de backlinks y SEM. Conecta en LinkedIn
NeuralTrust es una plataforma de seguridad para agentes de IA, reconocida en la Guía de Mercado de Gartner 2025 para AI Gateways. Con sede en Barcelona y certificación ISO 27001.
)