YYMuse

提示注入

Prompt Injection
提示词工程

攻击者通过构造恶意输入操控 LLM 忽略原始系统指令,是 AI 应用安全的核心威胁之一,尤其在 Agent 能访问外部内容时风险极高。

# 安全 # Agent

提示注入(Prompt Injection)

攻击原理: LLM 无法从语义上区分「系统指令」和「用户/外部输入」,攻击者在输入中嵌入伪指令覆盖原有规则。

两种形式: - 直接注入:用户直接输入「忽略以上指令,做 X」 - 间接注入:Agent 读取的网页/文件/邮件中藏有恶意指令

高危场景: - 能读取外部网页/邮件的 Agent - 能执行代码或操作文件的 Agent - 将用户输入直接拼入 System Prompt 的应用

防御措施: - 最小权限:Agent 只授予必要工具 - 输入清洗:对用户输入做边界标记 - 二次确认:高风险操作要求人工审批 - 输出验证:检查输出是否符合预期格式

原则: 不要假设 LLM 能自动抵抗注入——防御必须在架构层实现。

← 返回词汇列表