Reprompt: un ataque de un solo clic permite exfiltración de datos desde Microsoft Copilot
Investigadores de seguridad dieron a conocer un nuevo vector de ataque denominado Reprompt, capaz de exfiltrar datos sensibles de Microsoft Copilot con un solo clic. La técnica explota debilidades en el manejo de prompts dentro de agentes de IA generativa y permite evadir salvaguardas internas mediante la reformulación de instrucciones del modelo.
El ataque afecta a entornos empresariales de Microsoft 365, exponiendo información como correos electrónicos, documentos internos y potencialmente credenciales, todo sin generar alertas visibles para el usuario final. Los ataques se inician desde interfaces web maliciosas: basta con que la víctima haga clic en un enlace o botón para que el contexto de Copilot sea reescrito y ejecute comandos no autorizados.
Detalles técnicos
El Reprompt attack se apoya en la capacidad de modelos subyacentes —como GPT-4— para reinterpretar y encadenar instrucciones previas. Un prompt legítimo, por ejemplo “resumir mi bandeja de entrada”, puede ser modificado dinámicamente mediante JavaScript en una página comprometida para transformarse en una instrucción maliciosa como “extraer y enviar contactos a un servidor externo”.
El núcleo del problema radica en:
-
Falta de aislamiento estricto entre sesiones de prompt.
-
Confianza excesiva en filtros de contenido posteriores (downstream).
-
Capacidad del agente para aceptar reformulaciones que simulan comandos válidos del usuario.
Estas condiciones permiten cadenas de exfiltración completas en menos de cinco segundos, sin interacción adicional ni confirmaciones explícitas en la interfaz de Copilot.
Impacto potencial
El alcance es significativo: millones de usuarios corporativos podrían verse afectados, con riesgo de brechas masivas de datos personales (PII) bajo regulaciones como GDPR y CCPA. Los escenarios de abuso incluyen espionaje industrial, campañas de phishing altamente dirigidas y robo silencioso de información estratégica.
Si bien Microsoft desplegó mitigaciones parciales mediante actualizaciones de seguridad en enero de 2026, investigadores advierten que sitios de phishing persistentes continúan explotando la técnica, especialmente en navegadores sin protección EDR activa. El caso expone limitaciones estructurales de los agentes conversacionales de IA, donde la maleabilidad del contexto habilita abusos cross-session difíciles de detectar.
Recomendaciones
-
Deshabilitar enlaces externos dentro de sesiones empresariales de Copilot.
-
Aplicar políticas de contenido estricto mediante Microsoft Purview para bloquear reformulaciones de prompts.
-
Implementar monitoreo de comportamiento en endpoints con Microsoft Defender, auditando accesos anómalos a APIs de Copilot.
-
Capacitar a usuarios sobre riesgos de clics en interfaces de IA integradas.
-
Adoptar segmentación de tenants y autenticación multifactor para accesos sensibles hasta que existan parches completos.
El ataque Reprompt refuerza una preocupación creciente en seguridad de IA: mientras los agentes conversacionales ganan autonomía e integración profunda, la falta de controles de contexto robustos se convierte en una nueva superficie crítica de ataque.