YYMuse

基准测试

Benchmark

模型评估

标准化的模型评测套件，用于横向比较不同模型在推理、知识、代码等能力上的表现，是模型选型的重要参考，但也存在被「刷榜」的风险。

# 评估 # 模型选型

基准测试（Benchmark）

常用基准：

基准	测试内容	说明
MMLU	57 学科知识	衡量通用知识广度
HumanEval	代码生成	Python 函数实现
MATH	数学推理	竞赛级数学题
GPQA	博士级科学	专家难题
SWE-bench	真实 GitHub issue	软件工程能力
LMSYS Chatbot Arena	人类偏好对战	最贴近真实体验

使用注意： - 排行榜名次 ≠ 你的场景表现，需要做领域特定评测 - 部分模型存在「测试集污染」（训练数据包含测试题） - LMSYS Arena 的盲测人类评分通常比静态基准更可靠

建议： 用公开基准快速筛选，再用自己的评测集做最终决策。

← 返回词汇列表