YYMuse

KV 缓存

KV Cache
大语言模型

推理加速技术,将已处理 Token 的 Key-Value 向量缓存复用,避免重复计算,大幅降低长序列生成和多轮对话的延迟与成本。

# 推理优化 # 效率

KV Cache(键值缓存)

问题背景: Transformer 每生成一个新 Token,都需要对所有历史 Token 重新计算注意力——代价随序列长度平方增长。

解决方案: 将每层的 Key 和 Value 矩阵缓存起来,生成新 Token 时只需计算新 Token 的 Q,与缓存的 K/V 做注意力。

效果: - 将推理时间从 O(n²) 降为 O(n) - 多轮对话中复用历史上下文,成本不随轮次线性增长

Prompt Cache(提示词缓存): Anthropic、OpenAI 等提供商将 System Prompt 的 KV Cache 跨请求复用,降低 API 成本(Claude 缓存命中价格为标准价的 10%)。

提示: 长 System Prompt 的应用应主动利用 Prompt Cache 降本提速。

← 返回词汇列表