词汇速查

PM 与 AI 领域核心概念速查手册

共 10 个词条

让模型在处理每个 Token 时动态关注上下文中最相关的部分，是 Transformer 捕获长距离依赖的关键。

模型单次处理时能看到的最大 Token 数量，决定了能处理的文档长度和多轮对话历史深度。

推理加速技术，将已处理 Token 的 Key-Value 向量缓存复用，避免重复计算，大幅降低长序列生成和多轮对话的延迟与成本。

在海量文本上预训练的超大规模神经网络，能够理解和生成自然语言，是当前 AI 应用的核心引擎。

能同时处理文本、图像、音频、视频等多种数据类型的 AI 模型，代表作有 GPT-4o、Gemini 2.0 和 Claude 3 系列。

将模型分为多个「专家」子网络，每次推理只激活少数专家，在保持总参数量的同时大幅降低推理计算量，是 GPT-4、Gemini 等模型的关键架构。

将模型权重从 FP32/BF16 压缩为 INT8/INT4 等低精度格式，大幅减少显存占用和推理延迟，以少量精度损失换取显著效率提升。

具备扩展思考能力的 LLM，通过「慢思考」链式推理解决数学、代码等复杂问题，代表作有 o1/o3、DeepSeek-R1、Claude 3.7 Sonnet。

基于自注意力机制的神经网络架构，是 GPT、Claude、Gemini 等所有主流 LLM 的基础结构。

LLM 处理文本的最小单位，通常是子词（subword）。Token 数量直接影响 API 成本和上下文容量。