基准测试
Benchmark标准化的模型评测套件,用于横向比较不同模型在推理、知识、代码等能力上的表现,是模型选型的重要参考,但也存在被「刷榜」的风险。
# 评估
# 模型选型
基准测试(Benchmark)
常用基准:
| 基准 | 测试内容 | 说明 |
|---|---|---|
| MMLU | 57 学科知识 | 衡量通用知识广度 |
| HumanEval | 代码生成 | Python 函数实现 |
| MATH | 数学推理 | 竞赛级数学题 |
| GPQA | 博士级科学 | 专家难题 |
| SWE-bench | 真实 GitHub issue | 软件工程能力 |
| LMSYS Chatbot Arena | 人类偏好对战 | 最贴近真实体验 |
使用注意: - 排行榜名次 ≠ 你的场景表现,需要做领域特定评测 - 部分模型存在「测试集污染」(训练数据包含测试题) - LMSYS Arena 的盲测人类评分通常比静态基准更可靠
建议: 用公开基准快速筛选,再用自己的评测集做最终决策。