YYMuse

预训练

Pre-training
训练与优化

在海量无标注数据上用自监督任务训练模型,使其获得通用语言理解和世界知识,是所有大模型能力的来源和基础。

# 训练 # 基础

预训练

预训练是大模型能力的根基——微调只是在此基础上的定向调整。

训练任务: - 下一 Token 预测(GPT 系列):给定前缀,预测下一个词 - 掩码语言模型(BERT 系列):随机遮住词,预测被遮部分

规模: - 数据量:数万亿 Token(互联网文本、书籍、代码) - 算力:数千 GPU/TPU 训练数月 - 成本:GPT-4 级别预训练估计超 1 亿美元

涌现能力(Emergent Abilities): 当模型规模达到临界点,会突然涌现出推理、翻译、编程等未被显式训练的能力。

后续阶段: 预训练 → 指令微调(SFT)→ RLHF → 部署

← 返回词汇列表