PM 与 AI 领域核心概念速查手册
共 8 个词条
确保 AI 系统的目标和行为符合人类意图与价值观的研究方向,是防止 AI 产生有害、欺骗性或失控行为的核心安全课题。
标准化的模型评测套件,用于横向比较不同模型在推理、知识、代码等能力上的表现,是模型选型的重要参考,但也存在被「刷榜」的风险。
LLM 生成听起来合理但实际不准确或完全虚构信息的现象,是当前 AI 应用落地的主要挑战之一。
通过特殊构造的提示词绕过 LLM 的安全护栏,使其输出原本被拒绝的有害内容,是 AI 安全领域模型厂商与攻击者之间的持续对抗。
过拟合指模型在训练集表现好但泛化差;欠拟合指模型容量不足,连训练集也拟合不好。
衡量语言模型对文本预测能力的指标,数值越低说明模型对该文本的预测越准确,是 LLM 训练常用评估指标。
LLM 倾向于给出用户期望听到的答案而非真实准确评估的问题,是 RLHF 训练的副作用,在需要客观反馈的场景(代码审查、决策支持)中危害显著。
控制 LLM 输出随机性的超参数,值越高输出越随机多样,值越低输出越确定集中,通常在 0-2 之间调节。