Edison Watch

Lethal Trifecta

โมเดลภัยคุกคามสามความสามารถที่เปิดทางให้เกิดการขโมยข้อมูลโดย AI - การเข้าถึงข้อมูลส่วนตัว การเปิดรับเนื้อหาที่ไม่น่าเชื่อถือ และการสื่อสารภายนอก

Edison Watch ป้องกันการขโมยข้อมูลโดยตรวจจับและบล็อกการรวมกันของความสามารถที่จำเป็นสำหรับการโจมตี

ภัยคุกคาม: Prompt Injection

AI agents มีความเสี่ยงต่อ prompt injection - คำสั่งที่เป็นอันตรายซ่อนอยู่ในเนื้อหาภายนอก (เช่น หน้าเว็บหรือไฟล์) ที่หลอกให้ AI ส่งข้อมูลที่มีความละเอียดอ่อนออกไป

Lethal Trifecta

การขโมยข้อมูลต้องการสามความสามารถพร้อมกัน Edison Watch ติดตามสิ่งเหล่านี้ผ่าน monotonic flags ต่อเซสชัน:

ความสามารถSecurity Flagการกระทำ
การเข้าถึงข้อมูลส่วนตัวread_private_dataAI อ่านไฟล์ภายใน ฐานข้อมูล หรือเอกสาร
เนื้อหาที่ไม่น่าเชื่อถือread_untrusted_public_dataAI ดึงข้อมูลจากอินเทอร์เน็ต
การสื่อสารภายนอกwrite_operationAI ส่งข้อมูลออก (Slack, Email, APIs)

ตรรกะการบังคับใช้: หากเซสชันได้เข้าถึงทั้ง ข้อมูลส่วนตัว และ เนื้อหาที่ไม่น่าเชื่อถือ แล้ว การสื่อสารภายนอก ใดๆ ที่ตามมาจะถูกหยุดชั่วคราวเพื่อรอการอนุมัติจากมนุษย์

ผู้โจมตีต้องการทั้งสามอย่างจึงจะสำเร็จ การลบความสามารถใดความสามารถหนึ่งจะทำให้การขโมยข้อมูลเป็นไปไม่ได้:

  • ไม่มีการเข้าถึงข้อมูลส่วนตัว → ไม่มีสิ่งที่มีค่าให้ขโมย
  • ไม่มีเนื้อหาที่ไม่น่าเชื่อถือ → ไม่มีทางฉีดคำสั่งที่เป็นอันตราย
  • ไม่มีการสื่อสารภายนอก → ไม่มีทางส่งข้อมูลที่ขโมยมาออกไป

สถานะเซสชัน

สถานะถูกติดตามในเซิร์ฟเวอร์ Edison และเป็น monotonic: เมื่อ flag ถูกตั้งค่าแล้ว (เช่น เข้าถึงข้อมูลส่วนตัว) จะไม่สามารถยกเลิกได้สำหรับเซสชันนั้น สิ่งนี้ป้องกันการโจมตีแบบ "reset" ที่ prompt ที่เป็นอันตรายพยายามล้างสถานะภัยคุกคามของเซสชัน

ระดับการควบคุมการเข้าถึง (ACL)

ACL ป้องกันไม่ให้ข้อมูลที่มีความละเอียดอ่อนไหลไปยังจุดหมายที่มีความละเอียดอ่อนต่ำกว่า โดยไม่คำนึงถึงสถานะ Trifecta

ระดับกฎ
PUBLICสามารถไหลไปที่ไหนก็ได้
PRIVATEไม่สามารถไหลไปยัง PUBLIC
SECRETไม่สามารถไหลไปยัง PRIVATE หรือ PUBLIC

ตัวอย่าง: หาก agent อ่านฐานข้อมูลที่ถูกทำเครื่องหมายเป็น SECRET จะถูกบล็อกทันทีจากการโพสต์ไปยังช่อง Slack PUBLIC - แม้ว่า Trifecta จะยังไม่ถูกเรียกใช้อย่างเต็มที่

ทำไมความปลอดภัยแบบดั้งเดิมจึงล้มเหลวที่นี่

เครื่องมือความปลอดภัยแบบดั้งเดิมทำงานที่ชั้นเครือข่ายหรือตัวตน พวกมันตรวจสอบ ใคร ที่ทำคำขอ ไม่ใช่ ข้อมูลใดอยู่ในหน้าต่างบริบทของ AI Lethal Trifecta เป็นโมเดลภัยคุกคามระดับบริบท - ติดตามสิ่งที่ agent ได้เห็นและสิ่งที่กำลังจะทำ จากนั้นตัดสินใจแบบเรียลไทม์ว่าการรวมกันนั้นเป็นอันตรายหรือไม่