O modelo de ameaça de três capacidades que permite a exfiltração de dados por IA - acesso a dados privados, exposição a conteúdo não confiável e comunicação externa.
O Edison Watch previne a exfiltração de dados detectando e bloqueando a combinação de capacidades necessárias para um ataque.
Os agentes de IA são vulneráveis à injeção de prompt - instruções maliciosas escondidas em conteúdo externo (como uma página web ou arquivo) que manipulam a IA para exfiltrar dados sensíveis.
A exfiltração requer três capacidades simultaneamente. O Edison Watch rastreia essas capacidades por meio de flags monotônicos por sessão:
Capacidade
Flag de Segurança
Ação
Acesso a Dados Privados
read_private_data
A IA lê arquivos internos, bancos de dados ou documentos.
Conteúdo Não Confiável
read_untrusted_public_data
A IA busca dados da internet.
Comunicação Externa
write_operation
A IA envia dados (Slack, Email, APIs).
Lógica de Aplicação: Se uma sessão acessou tanto Dados Privados QUANTO Conteúdo Não Confiável, qualquer Comunicação Externa subsequente é pausada para aprovação humana.
Um atacante precisa das três para ter sucesso. Remover qualquer capacidade torna a exfiltração impossível:
Sem acesso a dados privados → nada valioso para roubar
Sem conteúdo não confiável → nenhuma forma de injetar instruções maliciosas
Sem comunicação externa → nenhuma forma de enviar dados roubados
O estado é rastreado no servidor Edison e é monotônico: uma vez que um flag é definido (ex., Dados Privados acessados), ele não pode ser removido para essa sessão. Isso previne ataques de "reset" onde um prompt malicioso tenta limpar o estado de ameaça da sessão.
Os ACLs previnem que dados sensíveis fluam para destinos de menor sensibilidade, independentemente do estado da Tríade.
Nível
Regra
PUBLIC
Pode fluir para qualquer lugar.
PRIVATE
Não pode fluir para PUBLIC.
SECRET
Não pode fluir para PRIVATE nem PUBLIC.
Exemplo: Se um agente lê um banco de dados marcado como SECRET, ele é imediatamente bloqueado de postar em um canal Slack PUBLIC - mesmo que a Tríade não tenha sido totalmente acionada.
As ferramentas de segurança tradicionais operam na camada de rede ou identidade. Elas verificam quem está fazendo uma solicitação, não quais dados estão na janela de contexto da IA. A Tríade Letal é um modelo de ameaça em nível de contexto - rastreia o que o agente viu e o que está prestes a fazer, depois toma uma decisão em tempo real sobre se essa combinação é perigosa.