YYMuse

提示注入（Prompt Injection）

攻击原理： LLM 无法从语义上区分「系统指令」和「用户/外部输入」，攻击者在输入中嵌入伪指令覆盖原有规则。

两种形式： - 直接注入：用户直接输入「忽略以上指令，做 X」 - 间接注入：Agent 读取的网页/文件/邮件中藏有恶意指令

高危场景： - 能读取外部网页/邮件的 Agent - 能执行代码或操作文件的 Agent - 将用户输入直接拼入 System Prompt 的应用

防御措施： - 最小权限：Agent 只授予必要工具 - 输入清洗：对用户输入做边界标记 - 二次确认：高风险操作要求人工审批 - 输出验证：检查输出是否符合预期格式

原则： 不要假设 LLM 能自动抵抗注入——防御必须在架构层实现。