YYMuse

基准测试

Benchmark
模型评估

标准化的模型评测套件,用于横向比较不同模型在推理、知识、代码等能力上的表现,是模型选型的重要参考,但也存在被「刷榜」的风险。

# 评估 # 模型选型

基准测试(Benchmark)

常用基准:

基准 测试内容 说明
MMLU 57 学科知识 衡量通用知识广度
HumanEval 代码生成 Python 函数实现
MATH 数学推理 竞赛级数学题
GPQA 博士级科学 专家难题
SWE-bench 真实 GitHub issue 软件工程能力
LMSYS Chatbot Arena 人类偏好对战 最贴近真实体验

使用注意: - 排行榜名次 ≠ 你的场景表现,需要做领域特定评测 - 部分模型存在「测试集污染」(训练数据包含测试题) - LMSYS Arena 的盲测人类评分通常比静态基准更可靠

建议: 用公开基准快速筛选,再用自己的评测集做最终决策。

← 返回词汇列表