PM 与 AI 领域核心概念速查手册
共 10 个词条
让模型在处理每个 Token 时动态关注上下文中最相关的部分,是 Transformer 捕获长距离依赖的关键。
模型单次处理时能看到的最大 Token 数量,决定了能处理的文档长度和多轮对话历史深度。
推理加速技术,将已处理 Token 的 Key-Value 向量缓存复用,避免重复计算,大幅降低长序列生成和多轮对话的延迟与成本。
在海量文本上预训练的超大规模神经网络,能够理解和生成自然语言,是当前 AI 应用的核心引擎。
能同时处理文本、图像、音频、视频等多种数据类型的 AI 模型,代表作有 GPT-4o、Gemini 2.0 和 Claude 3 系列。
将模型分为多个「专家」子网络,每次推理只激活少数专家,在保持总参数量的同时大幅降低推理计算量,是 GPT-4、Gemini 等模型的关键架构。
将模型权重从 FP32/BF16 压缩为 INT8/INT4 等低精度格式,大幅减少显存占用和推理延迟,以少量精度损失换取显著效率提升。
具备扩展思考能力的 LLM,通过「慢思考」链式推理解决数学、代码等复杂问题,代表作有 o1/o3、DeepSeek-R1、Claude 3.7 Sonnet。
基于自注意力机制的神经网络架构,是 GPT、Claude、Gemini 等所有主流 LLM 的基础结构。
LLM 处理文本的最小单位,通常是子词(subword)。Token 数量直接影响 API 成本和上下文容量。