KV 缓存
KV Cache推理加速技术,将已处理 Token 的 Key-Value 向量缓存复用,避免重复计算,大幅降低长序列生成和多轮对话的延迟与成本。
# 推理优化
# 效率
KV Cache(键值缓存)
问题背景: Transformer 每生成一个新 Token,都需要对所有历史 Token 重新计算注意力——代价随序列长度平方增长。
解决方案: 将每层的 Key 和 Value 矩阵缓存起来,生成新 Token 时只需计算新 Token 的 Q,与缓存的 K/V 做注意力。
效果: - 将推理时间从 O(n²) 降为 O(n) - 多轮对话中复用历史上下文,成本不随轮次线性增长
Prompt Cache(提示词缓存): Anthropic、OpenAI 等提供商将 System Prompt 的 KV Cache 跨请求复用,降低 API 成本(Claude 缓存命中价格为标准价的 10%)。
提示: 长 System Prompt 的应用应主动利用 Prompt Cache 降本提速。