Edison Watch

La Tríada Letal

El modelo de amenaza de tres capacidades que permite la exfiltración de datos impulsada por IA - acceso a datos privados, exposición a contenido no confiable y comunicación externa.

Edison Watch previene la exfiltración de datos detectando y bloqueando la combinación de capacidades necesarias para un ataque.

La Amenaza: Inyección de Prompt

Los agentes de IA son vulnerables a la inyección de prompt - instrucciones maliciosas ocultas en contenido externo (como una página web o archivo) que manipulan a la IA para exfiltrar datos sensibles.

La Tríada Letal

La exfiltración requiere tres capacidades simultáneamente. Edison Watch las rastrea mediante flags monotónicos por sesión:

CapacidadFlag de SeguridadAcción
Acceso a Datos Privadosread_private_dataLa IA lee archivos internos, bases de datos o documentos.
Contenido No Confiableread_untrusted_public_dataLa IA obtiene datos de internet.
Comunicación Externawrite_operationLa IA envía datos (Slack, Email, APIs).

Lógica de Aplicación: Si una sesión ha accedido tanto a Datos Privados COMO a Contenido No Confiable, cualquier Comunicación Externa posterior se pausa para aprobación humana.

Un atacante necesita las tres para tener éxito. Eliminar cualquier capacidad hace imposible la exfiltración:

  • Sin acceso a datos privados → nada valioso que robar
  • Sin contenido no confiable → no hay forma de inyectar instrucciones maliciosas
  • Sin comunicación externa → no hay forma de enviar datos robados

Estado de Sesión

El estado se rastrea en el servidor Edison y es monotónico: una vez que se establece un flag (ej., Datos Privados accedidos), no se puede desactivar para esa sesión. Esto previene ataques de "reset" donde un prompt malicioso intenta borrar el estado de amenaza de la sesión.

Niveles de Control de Acceso (ACL)

Los ACL previenen que datos sensibles fluyan a destinos de menor sensibilidad independientemente del estado de la Tríada.

NivelRegla
PUBLICPuede fluir a cualquier lugar.
PRIVATENo puede fluir a PUBLIC.
SECRETNo puede fluir a PRIVATE ni PUBLIC.

Ejemplo: Si un agente lee una base de datos marcada como SECRET, se le bloquea inmediatamente de publicar en un canal Slack PUBLIC - incluso si la Tríada no se ha activado completamente.

Por qué la seguridad tradicional falla aquí

Las herramientas de seguridad tradicionales operan en la capa de red o identidad. Verifican quién hace una solicitud, no qué datos están en la ventana de contexto de la IA. La Tríada Letal es un modelo de amenaza a nivel de contexto - rastrea lo que el agente ha visto y lo que está a punto de hacer, luego toma una decisión en tiempo real sobre si esa combinación es peligrosa.