YYMuse

Mixture of Experts（MoE）

核心思路： 用一个轻量的「路由器」决定每个 Token 激活哪几个专家，而非让所有参数参与计算。

关键概念： - 专家（Expert）：独立的 FFN 子网络 - 路由器（Router）：软最大分配，每次选 Top-K 专家 - 稀疏激活：每次推理只用总参数的一部分（如 1/8）

优势： - 相同算力下可以训练更大的模型 - 推理成本接近小模型，但能力接近大模型

代表模型： GPT-4（据传）、Gemini 1.5、Mixtral 8×7B（开源）、DeepSeek-V3

注意： MoE 模型的总参数量远大于激活参数量——区分两者才能正确比较模型。