Jun 19, 2025

Los riesgos que incorporamos sin querer: Agentes de IA y el problema de la obediencia

Por Radoslaw Madej, Líder del Equipo de Investigación de Vulnerabilidades de Check Point Software.

por

Los agentes de IA basados en LLM (que aprovechan grandes modelos de lenguaje para comprender y generar lenguaje humano, y realizar tareas complejas que requieren razonamiento secuencial, planificación y memoria), están introduciendo una nueva clase de vulnerabilidades, donde los atacantes inyectan instrucciones maliciosas en los datos, convirtiendo sistemas útiles en cómplices involuntarios.

Microsoft Copilot no fue hackeado en el sentido tradicional. No hubo malware, ni enlaces de phishing, ni código malicioso. Nadie hizo clic en nada ni implementó ningún exploit. El atacante simplemente pidió. Microsoft 365 Copilot, haciendo exactamente lo que fue diseñado para hacer, obedeció. En el ataque Echoleak, el agente de IA fue manipulado por una indicación camuflada en datos. Obedeció, no porque estuviera roto, sino porque funcionaba según lo diseñado. Esta vulnerabilidad no explotó errores de software. Explotó el lenguaje. Y eso marca un punto de inflexión en la ciberseguridad, donde la superficie de ataque ya no es el código, sino la conversación.

Los agentes de IA están diseñados para ayudar. Su propósito es comprender la intención del usuario y actuar en consecuencia de manera eficiente. Esta utilidad conlleva riesgos. Al integrarse en sistemas de archivos, plataformas de productividad o sistemas operativos, estos agentes siguen comandos de lenguaje natural con mínima resistencia.

Los atacantes están explotando precisamente esta característica. Con inyecciones de indicaciones aparentemente inocuas, pueden desencadenar acciones sensibles. Estas indicaciones pueden incluir: Fragmentos de código multilingüe, Formatos de archivo oscuros e instrucciones incrustadas, Entradas en idiomas distintos del inglés y Comandos de varios pasos ocultos en lenguaje informal. Dado que los agentes LLM están entrenados para comprender la complejidad y la ambigüedad, la indicación se convierte en la carga útil.

El fantasma de Siri y Alexa

Este patrón no es nuevo. En los inicios de Siri y Alexa, los investigadores demostraron que la ejecución de un comando de voz como «Enviar todas mis fotos a este correo electrónico» podía desencadenar una acción sin la verificación del usuario.

Ahora la amenaza es mayor. Agentes de IA como Microsoft Copilot están profundamente integrados en Office 365, Outlook y el sistema operativo. Acceden a correos electrónicos, documentos, credenciales y API. Los atacantes solo necesitan la indicación correcta para extraer datos críticos, haciéndose pasar por un usuario legítimo.

Cuando las computadoras confunden instrucciones con datos no es un principio nuevo en ciberseguridad. Inyecciones como los ataques SQL tuvieron éxito porque los sistemas no podían distinguir entre entrada e instrucción. Hoy en día, existe esa misma falla, pero en la capa de lenguaje.

Los agentes de IA tratan el lenguaje natural como entrada e intención. Un objeto JSON, una pregunta o incluso una frase pueden iniciar una acción. Esta ambigüedad es lo que los atacantes explotan, integrando comandos en lo que parece contenido inofensivo. Hemos integrado la intención en la infraestructura. Los atacantes han aprendido a extraerla.

Mientras las empresas se apresuran a integrar LLM, muchas pasan por alto una pregunta crucial: ¿a qué tiene acceso la IA? Cuando Copilot puede acceder al sistema operativo, el radio de acción se expande mucho más allá de la bandeja de entrada. Según el Informe de Seguridad de IA de Check Point:

  • El 62 % de los CISO temen ser considerados personalmente responsables de las vulneraciones relacionadas con la IA.
  • Casi el 40 % de las organizaciones informan sobre el uso interno no autorizado de la IA, a menudo sin supervisión de seguridad.
  • El 20 % de los grupos cibercriminales incorporan ahora la IA en sus operaciones, incluso para crear phishing y realizar reconocimiento.

Este no es solo un riesgo emergente. Es un riesgo presente.

Las medidas de seguridad existentes son insuficientes

Algunos proveedores utilizan sistemas de vigilancia: modelos secundarios entrenados para detectar indicaciones peligrosas o comportamientos sospechosos. Estos filtros pueden detectar amenazas básicas, pero son vulnerables a las técnicas de evasión. Los atacantes pueden: Sobrecargar los filtros con ruido, dividir la intención en varios pasos y usar frases no obvias para eludir la detección.

En el caso de Echoleak, existían salvaguardas, pero fueron ignoradas. Esto refleja no solo un fallo de política, sino también de arquitectura. Cuando un agente tiene permisos de alto nivel, pero un contexto de bajo nivel, incluso las buenas barreras de seguridad resultan insuficientes.

Prevenir todos los ataques puede ser poco realista. El objetivo debe ser una detección y una contención rápidas. Las organizaciones pueden empezar por:

  • Monitorear la actividad de los agentes de IA en tiempo real y mantener registros de auditoría rápidos.
  • Aplicar un acceso estricto con privilegios mínimos a las herramientas de IA, imitando los controles de nivel de administrador.
  • Añadir fricción a las operaciones sensibles, como solicitar confirmaciones.
  • Marcar patrones de avisos inusuales o adversos para su revisión.

Los ataques basados en lenguaje no aparecerán en las herramientas EDR tradicionales. Requieren un nuevo modelo de detección.

¿Qué deben hacer las organizaciones ahora? Antes de implementar agentes de IA, las organizaciones deben comprender cómo funcionan estos sistemas y qué riesgos presentan. Las recomendaciones clave incluyen:

  • Auditar todos los accesos: Saber qué agentes pueden tocar o activar
  • Limitar el alcance: Otorgar los permisos mínimos necesarios
  • Rastrear las interacciones: Registrar las solicitudes, las respuestas y las acciones resultantes
  • Realizar pruebas de estrés: Simular las entradas adversarias internamente
  • Planificar la evasión: Asumir que los filtros serán eludidos
  • Alinearse con la seguridad: Asegurarse de que los sistemas LLM respalden los objetivos de seguridad, no los comprometan
  • La nueva superficie de ataque

La fuga de eco es un anticipo de lo que está por venir. A medida que los sistemas LLM evolucionan, su utilidad se convierte en una desventaja. Integrados profundamente en los sistemas empresariales, ofrecen a los atacantes una nueva forma de entrar: a través de solicitudes simples y bien diseñadas.

Ya no se trata de proteger el código. Se trata de proteger el lenguaje, la intención y el contexto. La estrategia debe cambiar ahora.

Televitos

Revista papel digital de habla hispana donde puedes encontrar lo mejor del cine, series, consumo y entretenimiento.

Tecnovitos

T-Plus

error: ¡¡El contenido está protegido!!