YYMuse

预训练

预训练是大模型能力的根基——微调只是在此基础上的定向调整。

训练任务： - 下一 Token 预测（GPT 系列）：给定前缀，预测下一个词 - 掩码语言模型（BERT 系列）：随机遮住词，预测被遮部分

规模： - 数据量：数万亿 Token（互联网文本、书籍、代码） - 算力：数千 GPU/TPU 训练数月 - 成本：GPT-4 级别预训练估计超 1 亿美元

涌现能力（Emergent Abilities）： 当模型规模达到临界点，会突然涌现出推理、翻译、编程等未被显式训练的能力。

后续阶段： 预训练 → 指令微调（SFT）→ RLHF → 部署