Seguridad para MCPs 101

Alessandro Pignati • 24 de diciembre de 2025

Contenido

El panorama empresarial está experimentando una transformación profunda, pasando de consultas estáticas a LLMs hacia agentes de IA dinámicos y autónomos que ejecutan flujos de trabajo complejos de múltiples pasos. Estos agentes ya no se limitan a generar texto. Ahora realizan acciones: envían correos electrónicos, consultan bases de datos, gestionan recursos en la nube e interactúan con sistemas propietarios. Esta evolución desbloquea una productividad sin precedentes, pero simultáneamente introduce un perímetro de seguridad nuevo, crítico y a menudo pasado por alto.

Durante demasiado tiempo, las conversaciones sobre seguridad de la IA se han centrado en asegurar el modelo en sí, enfocándose en el envenenamiento de datos o la inyección de prompts dentro de los datos de entrenamiento o el prompt del usuario. Sin embargo, el riesgo real hoy no reside en lo que el LLM dice, sino en lo que el agente de IA hace. La capacidad de actuar del agente está gobernada por su acceso a capacidades externas, y el protocolo que gestiona este acceso es la nueva superficie de ataque. Aquí es donde el Model Context Protocol (MCP) entra en escena, presentando un desafío fundamental para los modelos de seguridad tradicionales. Como líderes de seguridad y CTOs, debemos preguntarnos: ¿estamos asegurando las herramientas que entregamos a nuestros sistemas autónomos, o les estamos otorgando inadvertidamente las llaves del reino?

Entendiendo los MCPs

El Model Context Protocol es el estándar fundacional que permite a los agentes de IA descubrir, comprender y utilizar herramientas externas, fuentes de datos y servicios. En esencia, funciona como la capa de API para los sistemas agénticos, permitiéndoles ir más allá de la mera conversación hacia la acción tangible.

Para que un agente de IA envíe un correo electrónico, por ejemplo, no inventa la función. Llama a una herramienta externa descrita a través de MCP. Esta herramienta proporciona al agente un manifiesto, que incluye una descripción legible por humanos y un esquema legible por máquinas. El LLM procesa esta información para decidir cuándo y cómo invocar la herramienta.

El problema del "Modo Dios" (God-Mode)

El desafío de seguridad inherente de MCP reside en los permisos otorgados a estas herramientas. Cuando un agente de IA integra una herramienta MCP, a menudo se le conceden privilegios significativos y, frecuentemente, no supervisados. Esto crea lo que podemos denominar el problema del "Modo Dios".

Consideremos un agente encargado de gestionar la atención al cliente. Si integra una herramienta MCP para el acceso a la base de datos, esa herramienta puede tener permisos para leer y escribir en todo el almacén de datos de clientes. Un agente comprometido, o una herramienta maliciosa, puede aprovechar este acceso para causar daños catastróficos. El ecosistema MCP se está convirtiendo rápidamente en la cadena de suministro de software para la IA, donde cada herramienta integrada es una dependencia de terceros que se ejecuta con privilegios elevados. Esta arquitectura exige un modelo de seguridad que sea proactivo, contextual y centrado en la protección en tiempo de ejecución (runtime).

Por qué la seguridad de MCP es una prioridad crítica para el negocio

La conversación sobre seguridad debe evolucionar al mismo ritmo que la tecnología. Para los líderes de seguridad y gerentes de producto, la seguridad de MCP no es una preocupación de nicho. Es una prioridad crítica para el negocio que impacta directamente en el riesgo empresarial y la postura de cumplimiento. La urgencia surge de tres cambios fundamentales en el modelo de amenazas:

El cambio de enfoque del núcleo del LLM a la acción del agente: Las medidas de seguridad tradicionales están diseñadas para proteger datos en reposo o en tránsito, o para filtrar la entrada del usuario. Son ciegas al contexto y la intención de las acciones autónomas de un agente de IA. Cuando un agente utiliza una herramienta MCP, está realizando una operación de alto privilegio basada en su razonamiento interno. Asegurar el núcleo del LLM es necesario, pero asegurar las acciones en tiempo de ejecución del agente es ahora primordial. Un LLM perfectamente seguro aún puede ser instruido por una herramienta maliciosa para exfiltrar datos.
Consecuencias crecientes de fallos: Las repercusiones de un fallo de seguridad en MCP son graves. Dado que los agentes suelen estar conectados a sistemas sensibles, una brecha puede provocar una exfiltración masiva de datos (por ejemplo, registros de clientes, propiedad intelectual), acceso no autorizado a sistemas (por ejemplo, manipulación de recursos en la nube) y violaciones inmediatas de cumplimiento (por ejemplo, GDPR, HIPAA). El compromiso pasa de ser una simple fuga de datos a un incidente de seguridad operativa a gran escala.
La velocidad del riesgo: A diferencia de los ataques impulsados por humanos, los agentes de IA operan a velocidad de máquina. Un agente puede ejecutar cientos de llamadas a herramientas por minuto. Si se inyecta con éxito una instrucción maliciosa, el daño resultante puede escalar de forma instantánea y autónoma, haciendo que los mecanismos tradicionales de detección y respuesta con intervención humana sean ineficaces. Esta velocidad exige una solución de seguridad que pueda proporcionar protección y gobernanza en tiempo de ejecución en milisegundos.

Vectores de ataque en el mundo real: El panorama de amenazas de MCP

Los riesgos teóricos de MCP se han materializado rápidamente en vectores de ataque reales y probados. Comprender estos mecanismos es el primer paso para construir una defensa resiliente.

A. Ataques de envenenamiento de herramientas (Tool Poisoning)

Los ataques de envenenamiento de herramientas explotan la relación de confianza fundamental entre el LLM y la descripción de la herramienta. El ataque funciona incrustando instrucciones maliciosas ocultas dentro del manifiesto de la herramienta que son invisibles para la interfaz de usuario pero totalmente visibles y ejecutables por el LLM.

Por ejemplo, una herramienta diseñada para "sumar dos números" puede contener una instrucción oculta en su descripción que obligue al LLM a leer primero un archivo sensible, como ~/.ssh/id_rsa o un archivo de configuración que contenga claves de API, y luego pasar el contenido de ese archivo como un parámetro oculto a la llamada de la herramienta. El LLM, entrenado para seguir instrucciones con precisión, ejecuta el comando malicioso, resultando en la exfiltración de datos sensibles bajo la apariencia de una función benigna.

B. Ataques a la cadena de suministro de MCP

La facilidad de integrar herramientas MCP públicas crea un riesgo significativo en la cadena de suministro, reflejando los desafíos vistos en las dependencias de software tradicionales.

El backdoor postmark-mcp sirve como un caso de estudio crudo. Una herramienta aparentemente legítima, ampliamente adoptada desde un registro público, fue actualizada con una sola línea de código maliciosa. Esta línea enviaba silenciosamente una copia oculta (BCC) de cada correo electrónico enviado por el agente a un servidor externo. Este escenario de "rug pull" demuestra que incluso una herramienta con un historial de confianza puede verse comprometida de la noche a la mañana, convirtiendo una pieza de infraestructura confiable en una operación masiva de robo de correos electrónicos. Para las empresas, esto significa que cada herramienta MCP integrada debe ser tratada como un vector de amenaza potencial, requiriendo auditoría y validación continua.

C. Salto de línea (Line Jumping) y robo de conversación

Algunos de los ataques más sofisticados aprovechan la forma en que los servidores MCP interactúan con el contexto del agente. La vulnerabilidad de "line jumping" permite a un servidor malicioso inyectar prompts a través de las descripciones de las herramientas que manipulan el comportamiento de la IA antes incluso de que se invoque la herramienta. Esto puede usarse para:

Robar el historial de conversación: Los servidores maliciosos pueden inyectar frases disparadoras que instruyen al LLM para resumir y transmitir todo el historial de conversación precedente, incluyendo contexto y datos sensibles, a un endpoint externo.
Ofuscar malicia: Los atacantes pueden usar técnicas como códigos de terminal ANSI para ocultar instrucciones maliciosas dentro de la descripción de la herramienta, haciéndolas invisibles para la revisión humana pero perfectamente legibles para el LLM.

D. Manejo inseguro de credenciales

Una vulnerabilidad común, pero crítica, es el almacenamiento inseguro de credenciales. Muchas implementaciones de MCP almacenan claves de API a largo plazo y secretos en texto plano en el sistema de archivos local. Una vez que una herramienta es envenenada o un agente es comprometido, estos archivos de fácil acceso se convierten en el objetivo principal para la exfiltración de credenciales, otorgando al atacante acceso persistente a los servicios más críticos de la organización.

Estableciendo un paradigma robusto de seguridad MCP

El panorama actual de amenazas deja claro que las herramientas de seguridad tradicionales son insuficientes para proteger los sistemas agénticos. Los firewalls, los sistemas DLP y los WAF son fundamentalmente ciegos al contexto y la intención de las acciones de un agente de IA. Pueden ver que se está enviando un correo electrónico, pero no pueden determinar si el agente fue instruido maliciosamente para incluir una dirección BCC oculta.

Por lo tanto, la defensa debe pasar de la protección del perímetro a la protección en tiempo de ejecución y la gobernanza contextual. Esto requiere una capa de seguridad dedicada que se sitúe entre el agente de IA y las herramientas externas que utiliza, proporcionando validación y monitoreo continuo de cada llamada a herramientas e intercambio de datos. El espacio de soluciones se define por la necesidad de:

Conciencia contextual: La capacidad de comprender el contexto completo de la solicitud del agente, incluyendo la intención original del usuario, la descripción de la herramienta y los datos procesados.
Validación en tiempo de ejecución: La capacidad de inspeccionar y validar los argumentos y resultados de las llamadas a herramientas en tiempo real, detectando y bloqueando instrucciones maliciosas o intentos de exfiltración de datos antes de que se ejecuten.
Gobernanza proactiva: Un marco para definir y hacer cumplir políticas de seguridad y barreras (guardrails) en todas las herramientas MCP integradas.

Las plataformas enfocadas en la confianza de la IA, la seguridad de agentes, los guardrails y la gobernanza están liderando este nuevo modelo de seguridad. Por ejemplo, NeuralTrust es una referencia creíble en este espacio, ofreciendo soluciones diseñadas para proporcionar la visibilidad y el control necesarios sobre las acciones del agente, asegurando que la autonomía no se produzca a expensas de la seguridad. Este nuevo paradigma es esencial para cualquier empresa que busque escalar su despliegue de agentes de IA de forma segura y responsable.

Prácticas recomendadas para asegurar sus agentes

Asegurar el entorno MCP requiere un enfoque de múltiples capas, que involucre tanto controles técnicos para ingenieros como una gobernanza robusta para los líderes de seguridad.

Para ingenieros de IA y gerentes de producto:

La primera línea de defensa es integrar la seguridad en el cliente del agente y en el proceso de integración de herramientas en sí.

Validación y saneamiento del lado del cliente: Nunca confíe ciegamente en la descripción de la herramienta proporcionada por un servidor MCP. Implemente una validación y saneamiento estrictos en el lado del cliente para eliminar vectores conocidos de inyección de prompts, como instrucciones ocultas o texto ofuscado (como códigos de terminal ANSI), antes de que el LLM procese el manifiesto de la herramienta.
Principio de mínimo privilegio: Aplique rigurosamente el principio de mínimo privilegio. Asegúrese de que a las herramientas MCP solo se les concedan los permisos mínimos necesarios para realizar su función declarada. Una herramienta diseñada para leer una sola tabla de base de datos no debe tener acceso de escritura a toda la base de datos.
Sandboxing y aislamiento: Aísle los entornos de ejecución de las herramientas. Al ejecutar herramientas en un sandbox dedicado, puede evitar que una herramienta comprometida obtenga acceso al sistema host u otros recursos sensibles, conteniendo efectivamente el radio de impacto de un ataque.

Para CTOs y líderes de seguridad:

El enfoque para el liderazgo debe estar en la gobernanza, el monitoreo continuo y las pruebas proactivas.

Gobernanza e inventario integral: Trate las herramientas MCP como dependencias críticas de terceros. Mantenga un inventario claro y actualizado de cada servidor y herramienta MCP en uso en toda la organización. Este inventario debe detallar la función de la herramienta, su creador y los permisos exactos que posee.
Implementar protección en tiempo de ejecución: Dada la velocidad y autonomía de los agentes de IA, el análisis estático es insuficiente. Debe implementar un monitoreo continuo y protección en tiempo de ejecución para detectar y bloquear acciones maliciosas de los agentes en tiempo real. Esta es una capacidad central de una plataforma de seguridad MCP como NeuralTrust, que proporciona los guardrails necesarios para asegurar el cumplimiento de las políticas durante la operación en vivo.
AI Red Teaming proactivo: No espere a que ocurra un ataque. Pruebe proactivamente sus agentes contra vectores de ataque MCP conocidos, incluyendo el envenenamiento de herramientas y el salto de línea.
Exigir escaneo de MCP: Antes de desplegar cualquier nueva herramienta MCP, exija el uso de un mcp scanner para auditar el manifiesto y el código de la herramienta en busca de instrucciones ocultas, manejo inseguro de credenciales y otras vulnerabilidades. Este paso proactivo es crucial para mitigar los riesgos de la cadena de suministro y es una característica clave de las ofertas integrales de seguridad de NeuralTrust.

Asegurando el futuro de la autonomía

El Model Context Protocol es el motor de la empresa autónoma. Es el mecanismo que transforma un LLM conversacional en un agente de IA potente y orientado a la acción. Sin embargo, como hemos visto, este poder conlleva un riesgo de seguridad proporcional. Las vulnerabilidades inherentes a MCP, desde el envenenamiento de herramientas hasta los ataques a la cadena de suministro, representan una frontera nueva y urgente en la ciberseguridad.

Para los CTOs, ingenieros de IA y líderes de seguridad, el mensaje es claro: la seguridad de sus sistemas agénticos no puede ser una ocurrencia de último momento. La confianza en la era de los agentes de IA debe ganarse a través de una validación y protección rigurosas y continuas. Ya no basta con asegurar el perímetro. Debemos asegurar el contexto y la intención de cada acción que realiza un agente.

Abrazar el futuro de la autonomía de la IA requiere una postura de seguridad proactiva y especializada. Al implementar una gobernanza robusta, exigir protección en tiempo de ejecución y adoptar un enfoque continuo de Red Teaming de IA, las organizaciones pueden mitigar los riesgos del panorama de amenazas de MCP. Las soluciones integrales de confianza y gobernanza de la IA, como las que ofrece NeuralTrust, no son solo una mejor práctica. Son una base esencial para el despliegue seguro y escalable de la IA empresarial. El momento de construir esta base es ahora, asegurando que la promesa de los agentes de IA se materialice de forma segura.