YYMuse

合成数据

为什么需要： - 真实标注数据稀缺（医疗、法律、罕见场景） - 隐私限制（用户数据无法直接用于训练） - 边缘情况覆盖不足（真实数据中罕见但重要的场景）

生成方式： - 用强模型（GPT-4/Claude）生成高质量问答对 - 数据增强：对已有数据做改写、翻译、噪声注入 - 自蒸馏：用大模型生成数据训练小模型（知识蒸馏）

典型案例： - Alpaca：Stanford 用 GPT-3.5 生成 5 万条数据微调 LLaMA - Phi 系列：微软用合成「教科书数据」训练小而强的模型 - DeepSeek-R1：用强化学习生成推理数据

风险： 合成数据中的错误会被模型学习放大（「模型坍塌」），质量过滤至关重要。