YYMuse

困惑度

Perplexity

模型评估

衡量语言模型对文本预测能力的指标，数值越低说明模型对该文本的预测越准确，是 LLM 训练常用评估指标。

# 评估指标 # 训练

Perplexity（困惑度）

直觉理解： 模型在猜下一个 Token 时的平均不确定性，困惑度为 10 表示模型在均匀猜测 10 个候选词。

公式： PPL = exp(-1/N × Σ log P(w_i|w_{<i}))

用途： - 比较同一语料上不同模型的语言建模能力 - 评估微调后模型是否遗忘原有能力

局限： 困惑度低不等于生成质量高——流畅但错误的内容也可能低困惑度。