预训练
Pre-training在海量无标注数据上用自监督任务训练模型,使其获得通用语言理解和世界知识,是所有大模型能力的来源和基础。
# 训练
# 基础
预训练
预训练是大模型能力的根基——微调只是在此基础上的定向调整。
训练任务: - 下一 Token 预测(GPT 系列):给定前缀,预测下一个词 - 掩码语言模型(BERT 系列):随机遮住词,预测被遮部分
规模: - 数据量:数万亿 Token(互联网文本、书籍、代码) - 算力:数千 GPU/TPU 训练数月 - 成本:GPT-4 级别预训练估计超 1 亿美元
涌现能力(Emergent Abilities): 当模型规模达到临界点,会突然涌现出推理、翻译、编程等未被显式训练的能力。
后续阶段: 预训练 → 指令微调(SFT)→ RLHF → 部署