YYMuse

专家混合模型

Mixture of Experts (MoE)
大语言模型

将模型分为多个「专家」子网络,每次推理只激活少数专家,在保持总参数量的同时大幅降低推理计算量,是 GPT-4、Gemini 等模型的关键架构。

# 架构 # 效率

Mixture of Experts(MoE)

核心思路: 用一个轻量的「路由器」决定每个 Token 激活哪几个专家,而非让所有参数参与计算。

关键概念: - 专家(Expert):独立的 FFN 子网络 - 路由器(Router):软最大分配,每次选 Top-K 专家 - 稀疏激活:每次推理只用总参数的一部分(如 1/8)

优势: - 相同算力下可以训练更大的模型 - 推理成本接近小模型,但能力接近大模型

代表模型: GPT-4(据传)、Gemini 1.5、Mixtral 8×7B(开源)、DeepSeek-V3

注意: MoE 模型的总参数量远大于激活参数量——区分两者才能正确比较模型。

← 返回词汇列表