Lethal Trifecta

โมเดลภัยคุกคามสามความสามารถที่เปิดทางให้เกิดการขโมยข้อมูลโดย AI - การเข้าถึงข้อมูลส่วนตัว การเปิดรับเนื้อหาที่ไม่น่าเชื่อถือ และการสื่อสารภายนอก

Edison Watch ป้องกันการขโมยข้อมูลโดยตรวจจับและบล็อกการรวมกันของความสามารถที่จำเป็นสำหรับการโจมตี

ภัยคุกคาม: Prompt Injection

AI agents มีความเสี่ยงต่อ prompt injection - คำสั่งที่เป็นอันตรายซ่อนอยู่ในเนื้อหาภายนอก (เช่น หน้าเว็บหรือไฟล์) ที่หลอกให้ AI ส่งข้อมูลที่มีความละเอียดอ่อนออกไป

Lethal Trifecta

การขโมยข้อมูลต้องการสามความสามารถพร้อมกัน Edison Watch ติดตามสิ่งเหล่านี้ผ่าน monotonic flags ต่อเซสชัน:

ความสามารถ	Security Flag	การกระทำ
การเข้าถึงข้อมูลส่วนตัว	`read_private_data`	AI อ่านไฟล์ภายใน ฐานข้อมูล หรือเอกสาร
เนื้อหาที่ไม่น่าเชื่อถือ	`read_untrusted_public_data`	AI ดึงข้อมูลจากอินเทอร์เน็ต
การสื่อสารภายนอก	`write_operation`	AI ส่งข้อมูลออก (Slack, Email, APIs)

ตรรกะการบังคับใช้: หากเซสชันได้เข้าถึงทั้ง ข้อมูลส่วนตัว และ เนื้อหาที่ไม่น่าเชื่อถือ แล้ว การสื่อสารภายนอก ใดๆ ที่ตามมาจะถูกหยุดชั่วคราวเพื่อรอการอนุมัติจากมนุษย์

ผู้โจมตีต้องการทั้งสามอย่างจึงจะสำเร็จ การลบความสามารถใดความสามารถหนึ่งจะทำให้การขโมยข้อมูลเป็นไปไม่ได้:

ไม่มีการเข้าถึงข้อมูลส่วนตัว → ไม่มีสิ่งที่มีค่าให้ขโมย
ไม่มีเนื้อหาที่ไม่น่าเชื่อถือ → ไม่มีทางฉีดคำสั่งที่เป็นอันตราย
ไม่มีการสื่อสารภายนอก → ไม่มีทางส่งข้อมูลที่ขโมยมาออกไป

สถานะถูกติดตามในเซิร์ฟเวอร์ Edison และเป็น monotonic: เมื่อ flag ถูกตั้งค่าแล้ว (เช่น เข้าถึงข้อมูลส่วนตัว) จะไม่สามารถยกเลิกได้สำหรับเซสชันนั้น สิ่งนี้ป้องกันการโจมตีแบบ "reset" ที่ prompt ที่เป็นอันตรายพยายามล้างสถานะภัยคุกคามของเซสชัน

ระดับการควบคุมการเข้าถึง (ACL)

ACL ป้องกันไม่ให้ข้อมูลที่มีความละเอียดอ่อนไหลไปยังจุดหมายที่มีความละเอียดอ่อนต่ำกว่า โดยไม่คำนึงถึงสถานะ Trifecta

ระดับ	กฎ
PUBLIC	สามารถไหลไปที่ไหนก็ได้
PRIVATE	ไม่สามารถไหลไปยัง PUBLIC
SECRET	ไม่สามารถไหลไปยัง PRIVATE หรือ PUBLIC

ตัวอย่าง: หาก agent อ่านฐานข้อมูลที่ถูกทำเครื่องหมายเป็น SECRET จะถูกบล็อกทันทีจากการโพสต์ไปยังช่อง Slack PUBLIC - แม้ว่า Trifecta จะยังไม่ถูกเรียกใช้อย่างเต็มที่

ทำไมความปลอดภัยแบบดั้งเดิมจึงล้มเหลวที่นี่

เครื่องมือความปลอดภัยแบบดั้งเดิมทำงานที่ชั้นเครือข่ายหรือตัวตน พวกมันตรวจสอบ ใคร ที่ทำคำขอ ไม่ใช่ ข้อมูลใดอยู่ในหน้าต่างบริบทของ AI Lethal Trifecta เป็นโมเดลภัยคุกคามระดับบริบท - ติดตามสิ่งที่ agent ได้เห็นและสิ่งที่กำลังจะทำ จากนั้นตัดสินใจแบบเรียลไทม์ว่าการรวมกันนั้นเป็นอันตรายหรือไม่

ความเสี่ยงมัลแวร์ MCP

เซิร์ฟเวอร์ MCP STDIO สร้างพื้นผิวการโจมตีที่ไม่มีการจัดการอย่างไร

RBAC ที่เข้ากันได้กับ AI

ทำไมการควบคุมการเข้าถึงต้องติดตามกลุ่มผู้รับข้อมูล ไม่ใช่แค่ตัวตน

Lethal Trifecta

ภัยคุกคาม: Prompt Injection

Lethal Trifecta

สถานะเซสชัน

ระดับการควบคุมการเข้าถึง (ACL)

ทำไมความปลอดภัยแบบดั้งเดิมจึงล้มเหลวที่นี่

ความเสี่ยงมัลแวร์ MCP

RBAC ที่เข้ากันได้กับ AI

On this page