Lethal Trifecta
โมเดลภัยคุกคามสามความสามารถที่เปิดทางให้เกิดการขโมยข้อมูลโดย AI - การเข้าถึงข้อมูลส่วนตัว การเปิดรับเนื้อหาที่ไม่น่าเชื่อถือ และการสื่อสารภายนอก
Edison Watch ป้องกันการขโมยข้อมูลโดยตรวจจับและบล็อกการรวมกันของความสามารถที่จำเป็นสำหรับการโจมตี
ภัยคุกคาม: Prompt Injection
AI agents มีความเสี่ยงต่อ prompt injection - คำสั่งที่เป็นอันตรายซ่อนอยู่ในเนื้อหาภายนอก (เช่น หน้าเว็บหรือไฟล์) ที่หลอกให้ AI ส่งข้อมูลที่มีความละเอียดอ่อนออกไป
Lethal Trifecta
การขโมยข้อมูลต้องการสามความสามารถพร้อมกัน Edison Watch ติดตามสิ่งเหล่านี้ผ่าน monotonic flags ต่อเซสชัน:
| ความสามารถ | Security Flag | การกระทำ |
|---|---|---|
| การเข้าถึงข้อมูลส่วนตัว | read_private_data | AI อ่านไฟล์ภายใน ฐานข้อมูล หรือเอกสาร |
| เนื้อหาที่ไม่น่าเชื่อถือ | read_untrusted_public_data | AI ดึงข้อมูลจากอินเทอร์เน็ต |
| การสื่อสารภายนอก | write_operation | AI ส่งข้อมูลออก (Slack, Email, APIs) |
ตรรกะการบังคับใช้: หากเซสชันได้เข้าถึงทั้ง ข้อมูลส่วนตัว และ เนื้อหาที่ไม่น่าเชื่อถือ แล้ว การสื่อสารภายนอก ใดๆ ที่ตามมาจะถูกหยุดชั่วคราวเพื่อรอการอนุมัติจากมนุษย์
ผู้โจมตีต้องการทั้งสามอย่างจึงจะสำเร็จ การลบความสามารถใดความสามารถหนึ่งจะทำให้การขโมยข้อมูลเป็นไปไม่ได้:
- ไม่มีการเข้าถึงข้อมูลส่วนตัว → ไม่มีสิ่งที่มีค่าให้ขโมย
- ไม่มีเนื้อหาที่ไม่น่าเชื่อถือ → ไม่มีทางฉีดคำสั่งที่เป็นอันตราย
- ไม่มีการสื่อสารภายนอก → ไม่มีทางส่งข้อมูลที่ขโมยมาออกไป
สถานะเซสชัน
สถานะถูกติดตามในเซิร์ฟเวอร์ Edison และเป็น monotonic: เมื่อ flag ถูกตั้งค่าแล้ว (เช่น เข้าถึงข้อมูลส่วนตัว) จะไม่สามารถยกเลิกได้สำหรับเซสชันนั้น สิ่งนี้ป้องกันการโจมตีแบบ "reset" ที่ prompt ที่เป็นอันตรายพยายามล้างสถานะภัยคุกคามของเซสชัน
ระดับการควบคุมการเข้าถึง (ACL)
ACL ป้องกันไม่ให้ข้อมูลที่มีความละเอียดอ่อนไหลไปยังจุดหมายที่มีความละเอียดอ่อนต่ำกว่า โดยไม่คำนึงถึงสถานะ Trifecta
| ระดับ | กฎ |
|---|---|
| PUBLIC | สามารถไหลไปที่ไหนก็ได้ |
| PRIVATE | ไม่สามารถไหลไปยัง PUBLIC |
| SECRET | ไม่สามารถไหลไปยัง PRIVATE หรือ PUBLIC |
ตัวอย่าง: หาก agent อ่านฐานข้อมูลที่ถูกทำเครื่องหมายเป็น SECRET จะถูกบล็อกทันทีจากการโพสต์ไปยังช่อง Slack PUBLIC - แม้ว่า Trifecta จะยังไม่ถูกเรียกใช้อย่างเต็มที่
ทำไมความปลอดภัยแบบดั้งเดิมจึงล้มเหลวที่นี่
เครื่องมือความปลอดภัยแบบดั้งเดิมทำงานที่ชั้นเครือข่ายหรือตัวตน พวกมันตรวจสอบ ใคร ที่ทำคำขอ ไม่ใช่ ข้อมูลใดอยู่ในหน้าต่างบริบทของ AI Lethal Trifecta เป็นโมเดลภัยคุกคามระดับบริบท - ติดตามสิ่งที่ agent ได้เห็นและสิ่งที่กำลังจะทำ จากนั้นตัดสินใจแบบเรียลไทม์ว่าการรวมกันนั้นเป็นอันตรายหรือไม่
ความเสี่ยงมัลแวร์ MCP
เซิร์ฟเวอร์ MCP STDIO สร้างพื้นผิวการโจมตีที่ไม่มีการจัดการอย่างไร - การโจมตีห่วงโซ่อุปทานที่นำไปสู่ RCE การโจมตี rug pull และทำไม "ในเครื่อง" ไม่ได้หมายความว่า "ปลอดภัยจากการขโมยข้อมูล"
RBAC ที่เข้ากันได้กับ AI
ทำไมการควบคุมการเข้าถึงแบบดั้งเดิมจึงล้มเหลวเมื่อ AI agents ทำงานแทนผู้ใช้ และวิธีที่ Edison Watch บังคับใช้ขอบเขตข้อมูลโดยติดตามกลุ่มผู้รับต้นทาง

