YYMuse

困惑度

Perplexity
模型评估

衡量语言模型对文本预测能力的指标,数值越低说明模型对该文本的预测越准确,是 LLM 训练常用评估指标。

# 评估指标 # 训练

Perplexity(困惑度)

直觉理解: 模型在猜下一个 Token 时的平均不确定性,困惑度为 10 表示模型在均匀猜测 10 个候选词。

公式: PPL = exp(-1/N × Σ log P(w_i|w_{<i}))

用途: - 比较同一语料上不同模型的语言建模能力 - 评估微调后模型是否遗忘原有能力

局限: 困惑度低不等于生成质量高——流畅但错误的内容也可能低困惑度。

← 返回词汇列表