Edison Watch

Lethal Trifecta

AIによるデータ漏洩を可能にする3つの機能の脅威モデル - プライベートデータへのアクセス、信頼できないコンテンツへの露出、外部通信。

Edison Watchは、攻撃に必要な機能の組み合わせを検出してブロックすることで、データ漏洩を防止します。

脅威:プロンプトインジェクション

AIエージェントはプロンプトインジェクションに脆弱です - 外部コンテンツ(Webページやファイルなど)に隠された悪意のある指示が、AIを操作して機密データを漏洩させます。

Lethal Trifecta

漏洩には3つの機能が同時に必要です。Edison Watchはセッションごとの単調フラグでこれらを追跡します:

機能セキュリティフラグアクション
プライベートデータアクセスread_private_dataAIが内部ファイル、データベース、ドキュメントを読み取る。
信頼できないコンテンツread_untrusted_public_dataAIがインターネットからデータを取得する。
外部通信write_operationAIがデータを送信する(Slack、メール、API)。

適用ロジック:セッションがプライベートデータ信頼できないコンテンツの両方にアクセスした場合、以降の外部通信は人間の承認のために一時停止されます。

攻撃者は3つすべてが必要です。いずれか1つの機能を除去すれば漏洩は不可能になります:

  • プライベートデータアクセスなし → 盗む価値のあるものがない
  • 信頼できないコンテンツなし → 悪意のある指示を注入する方法がない
  • 外部通信なし → 盗んだデータを送信する方法がない

セッション状態

状態はEdisonサーバーで追跡され、単調です:フラグが一度設定されると(例:プライベートデータにアクセス)、そのセッションでは解除できません。これにより、悪意のあるプロンプトがセッションの脅威状態をクリアしようとする「リセット」攻撃を防止します。

アクセス制御レベル(ACL)

ACLは、Trifectaの状態に関係なく、機密データが低感度の宛先に流れることを防止します。

レベルルール
PUBLICどこにでも流れることができる。
PRIVATEPUBLICに流れることができない。
SECRETPRIVATEにもPUBLICにも流れることができない。

:エージェントがSECRETとマークされたデータベースを読み取った場合、Trifectaが完全にトリガーされていなくても、PUBLICのSlackチャンネルへの投稿は即座にブロックされます。

従来のセキュリティがここで失敗する理由

従来のセキュリティツールはネットワークまたはIDレイヤーで動作します。誰がリクエストを行っているかを検証しますが、AIのコンテキストウィンドウにどのデータがあるかは検証しません。Lethal Trifectaはコンテキストレベルの脅威モデルです - エージェントが見たものとこれから行うことを追跡し、その組み合わせが危険かどうかをリアルタイムで判断します。