PM 与 AI 领域核心概念速查手册
共 25 个词条
能够感知环境、规划行动并调用工具完成复杂任务的 AI 系统,可自主执行多步骤工作流。
让计算机系统能够执行通常需要人类智能的任务,如推理、学习、感知和语言理解。
让模型在处理每个 Token 时动态关注上下文中最相关的部分,是 Transformer 捕获长距离依赖的关键。
模型单次处理时能看到的最大 Token 数量,决定了能处理的文档长度和多轮对话历史深度。
引导模型在给出答案前逐步展示推理过程,显著提升数学、逻辑和多步骤问题的准确率。
通过学习逐步去噪过程生成图像的模型,是 Stable Diffusion、DALL-E 等 AI 绘画工具的核心技术。
使用多层神经网络从大量数据中自动学习特征表示,是当前 AI 能力突破的核心技术。
训练时随机让一部分神经元不激活,强迫网络学习冗余表示,是防止过拟合的标准正则化技术。
将词、句子或图像等高维离散信息压缩为稠密的低维向量,使语义相似的内容在向量空间中距离更近。
允许 LLM 识别何时需要调用外部函数,输出结构化的调用参数,由应用层执行后将结果返回给模型。
在 Prompt 中提供少量输入-输出示例,让模型通过上下文学习理解任务格式和风格。
在预训练模型基础上,用特定领域数据继续训练,使模型更擅长目标任务,同时保留通用能力。
LLM 生成听起来合理但实际不准确或完全虚构信息的现象,是当前 AI 应用落地的主要挑战之一。
在海量文本上预训练的超大规模神经网络,能够理解和生成自然语言,是当前 AI 应用的核心引擎。
通过只训练少量低秩矩阵来适配大模型,大幅降低微调的显存和计算需求,是目前最主流的高效微调方法。
Anthropic 发布的开放标准,让 AI 模型能以统一方式连接各种外部工具和数据源,类似 AI 的 USB 接口。
过拟合指模型在训练集表现好但泛化差;欠拟合指模型容量不足,连训练集也拟合不好。
发送给 LLM 的输入文本,包含指令、上下文、示例等,是控制模型输出行为的主要手段。
衡量语言模型对文本预测能力的指标,数值越低说明模型对该文本的预测越准确,是 LLM 训练常用评估指标。
将外部知识库检索与 LLM 生成相结合,解决模型知识截止和幻觉问题,让回答有据可查。
通过人类对模型输出的偏好评分训练奖励模型,再用强化学习优化 LLM,使其更有帮助、更无害、更诚实。
在对话开始前设置模型角色、行为约束和全局规则的特殊提示词,对整个会话持续生效。
基于自注意力机制的神经网络架构,是 GPT、Claude、Gemini 等所有主流 LLM 的基础结构。
LLM 处理文本的最小单位,通常是子词(subword)。Token 数量直接影响 API 成本和上下文容量。
控制 LLM 输出随机性的超参数,值越高输出越随机多样,值越低输出越确定集中,通常在 0-2 之间调节。