YYMuse

KV Cache（键值缓存）

问题背景： Transformer 每生成一个新 Token，都需要对所有历史 Token 重新计算注意力——代价随序列长度平方增长。

解决方案： 将每层的 Key 和 Value 矩阵缓存起来，生成新 Token 时只需计算新 Token 的 Q，与缓存的 K/V 做注意力。

效果： - 将推理时间从 O(n²) 降为 O(n) - 多轮对话中复用历史上下文，成本不随轮次线性增长

Prompt Cache（提示词缓存）： Anthropic、OpenAI 等提供商将 System Prompt 的 KV Cache 跨请求复用，降低 API 成本（Claude 缓存命中价格为标准价的 10%）。

提示： 长 System Prompt 的应用应主动利用 Prompt Cache 降本提速。