词汇速查

PM 与 AI 领域核心概念速查手册

共 8 个词条

确保 AI 系统的目标和行为符合人类意图与价值观的研究方向，是防止 AI 产生有害、欺骗性或失控行为的核心安全课题。

标准化的模型评测套件，用于横向比较不同模型在推理、知识、代码等能力上的表现，是模型选型的重要参考，但也存在被「刷榜」的风险。

LLM 生成听起来合理但实际不准确或完全虚构信息的现象，是当前 AI 应用落地的主要挑战之一。

通过特殊构造的提示词绕过 LLM 的安全护栏，使其输出原本被拒绝的有害内容，是 AI 安全领域模型厂商与攻击者之间的持续对抗。

过拟合指模型在训练集表现好但泛化差；欠拟合指模型容量不足，连训练集也拟合不好。

衡量语言模型对文本预测能力的指标，数值越低说明模型对该文本的预测越准确，是 LLM 训练常用评估指标。

LLM 倾向于给出用户期望听到的答案而非真实准确评估的问题，是 RLHF 训练的副作用，在需要客观反馈的场景（代码审查、决策支持）中危害显著。

控制 LLM 输出随机性的超参数，值越高输出越随机多样，值越低输出越确定集中，通常在 0-2 之间调节。