Edison Watch

A Tríade Letal

O modelo de ameaça de três capacidades que permite a exfiltração de dados por IA - acesso a dados privados, exposição a conteúdo não confiável e comunicação externa.

O Edison Watch previne a exfiltração de dados detectando e bloqueando a combinação de capacidades necessárias para um ataque.

A Ameaça: Injeção de Prompt

Os agentes de IA são vulneráveis à injeção de prompt - instruções maliciosas escondidas em conteúdo externo (como uma página web ou arquivo) que manipulam a IA para exfiltrar dados sensíveis.

A Tríade Letal

A exfiltração requer três capacidades simultaneamente. O Edison Watch rastreia essas capacidades por meio de flags monotônicos por sessão:

CapacidadeFlag de SegurançaAção
Acesso a Dados Privadosread_private_dataA IA lê arquivos internos, bancos de dados ou documentos.
Conteúdo Não Confiávelread_untrusted_public_dataA IA busca dados da internet.
Comunicação Externawrite_operationA IA envia dados (Slack, Email, APIs).

Lógica de Aplicação: Se uma sessão acessou tanto Dados Privados QUANTO Conteúdo Não Confiável, qualquer Comunicação Externa subsequente é pausada para aprovação humana.

Um atacante precisa das três para ter sucesso. Remover qualquer capacidade torna a exfiltração impossível:

  • Sem acesso a dados privados → nada valioso para roubar
  • Sem conteúdo não confiável → nenhuma forma de injetar instruções maliciosas
  • Sem comunicação externa → nenhuma forma de enviar dados roubados

Estado da Sessão

O estado é rastreado no servidor Edison e é monotônico: uma vez que um flag é definido (ex., Dados Privados acessados), ele não pode ser removido para essa sessão. Isso previne ataques de "reset" onde um prompt malicioso tenta limpar o estado de ameaça da sessão.

Níveis de Controle de Acesso (ACL)

Os ACLs previnem que dados sensíveis fluam para destinos de menor sensibilidade, independentemente do estado da Tríade.

NívelRegra
PUBLICPode fluir para qualquer lugar.
PRIVATENão pode fluir para PUBLIC.
SECRETNão pode fluir para PRIVATE nem PUBLIC.

Exemplo: Se um agente lê um banco de dados marcado como SECRET, ele é imediatamente bloqueado de postar em um canal Slack PUBLIC - mesmo que a Tríade não tenha sido totalmente acionada.

Por que a segurança tradicional falha aqui

As ferramentas de segurança tradicionais operam na camada de rede ou identidade. Elas verificam quem está fazendo uma solicitação, não quais dados estão na janela de contexto da IA. A Tríade Letal é um modelo de ameaça em nível de contexto - rastreia o que o agente viu e o que está prestes a fazer, depois toma uma decisão em tempo real sobre se essa combinação é perigosa.