YYMuse

合成数据

Synthetic Data
训练与优化

用 AI 生成的数据替代或扩充真实标注数据来训练模型,解决数据稀缺和隐私问题,是「模型自我改进」和蒸馏的关键路径。

# 训练 # 数据工程

合成数据

为什么需要: - 真实标注数据稀缺(医疗、法律、罕见场景) - 隐私限制(用户数据无法直接用于训练) - 边缘情况覆盖不足(真实数据中罕见但重要的场景)

生成方式: - 用强模型(GPT-4/Claude)生成高质量问答对 - 数据增强:对已有数据做改写、翻译、噪声注入 - 自蒸馏:用大模型生成数据训练小模型(知识蒸馏)

典型案例: - Alpaca:Stanford 用 GPT-3.5 生成 5 万条数据微调 LLaMA - Phi 系列:微软用合成「教科书数据」训练小而强的模型 - DeepSeek-R1:用强化学习生成推理数据

风险: 合成数据中的错误会被模型学习放大(「模型坍塌」),质量过滤至关重要。

← 返回词汇列表