Dense vs MoE：大模型架构的选择题

选 Dense 还是选 MoE？这个问题在 2025 年之后已经不怎么争议了——大多数顶级闭源模型（GPT-4 系列、Gemini、DeepSeek-V3）都用了 MoE。但这不意味着 Dense 没用了。两种架构各有清晰的能力边界，选错架构的代价远大于选错模型大小。

两种架构在做什么

Dense 模型就是传统的 Transformer。每个 token 在前向传播时，会经过 FFN 层的全部参数。激活参数 = 总参数，没有任何浪费，也没有任何节省。

MoE（Mixture of Experts）把 FFN 层拆成多个专家网络，加一个路由器。每个 token 来了，路由器判断"这个 token 该交给哪几个专家处理"，只激活 Top-K 个（通常 K=1~2）。总参数可以做得很大，但每次推理只用一小部分。

一个类比：Dense 是一个全科医生，什么病都看，每次问诊要调用自己的全部知识；MoE 是一个分诊台 + 多个专科医生，分诊台快速判断该挂哪个科，只让对应的医生出诊。

维度
Dense
MoE

激活参数
总参数 = 激活参数（100%）
仅激活 Top-K 专家，激活参数远小于总参数

推理计算量
与总参数成正比
与激活参数成正比，同等总参数下快几倍

模型容量
受计算预算限制，难以做到极大
轻松做到万亿级总参数

参数效率
较低——相同计算预算下，能承载的知识量有限
更高——同样的 FLOPs 能训练出更大的模型

显存占用
推理时加载全部参数
推理时仍需加载全部参数（所有专家都在内存里），计算只用少部分

知识专业化
统一表示，所有知识混在一起
专家可自然产生分工（数学、代码、语言等）

训练稳定性
简单、稳定
需处理负载均衡、路由器训练、专家坍缩等问题

部署复杂度
低
高——路由逻辑、通信开销、专家调度

微调友好度
相对友好
更复杂，需要考虑专家冻结/解冻策略

Mixtral 8x7B 是最能说明问题的案例：总参数约 47B，但每个 token 只激活约 13B。在多数基准测试上，它逼近甚至超过了 Llama 2 70B（一个 Dense 模型），推理速度快得多。

DeepSeek-V3 走得更远——总参数 671B，激活参数只有 37B，用极低的推理成本提供了顶级性能。

反过来也有数据：在同等激活参数下，Dense 模型通常更强。因为所有参数在协同工作，没有路由器的选择开销。MoE 本质上是"用更多总参数换计算效率"的 trade-off。

MoE 几乎在所有效率指标上占优，但 Dense 在几个场景下仍然是更好的选择：

小规模部署和端侧推理。 MoE 的总参数大，意味着推理时需要把所有专家都加载到显存里。一个 47B 总参的 MoE，推理时的显存需求和 47B Dense 差不多（甚至因为路由开销略高），尽管实际计算量只有 13B 级别。如果显存不够装下全部专家，MoE 的优势就变成了劣势。

训练稳定性要求高的场景。 MoE 训练要面对负载不均衡（某些专家被过度使用）、专家坍缩（某些专家长期不被路由到）、路由器训练不稳定等问题。Dense 没有这些麻烦，训练 pipeline 更可预测。

微调场景。 Dense 模型的微调更直观——全量微调或 LoRA 都有成熟方案。MoE 微调需要决定是冻结大部分专家只调几个，还是全部放开，策略空间更大，踩坑概率也更大。

大规模商业部署。 高并发、高吞吐场景下，MoE 的推理成本优势是决定性的。同一个 GPU 上，MoE 能服务的请求数量远超同等性能的 Dense 模型。

Scaling 效率。 相同 FLOPs 预算下，MoE 能训练出更强的模型。因为能把参数规模做得更大，模型容量更大，能学到更多知识。这也是为什么主流大厂都选择了 MoE 路线。

多领域能力。 专家的自然分工让 MoE 在多语言、多任务场景下有优势。不同专家可能自发专精于不同领域，虽然这种专业化程度因模型而异。

2025-2026 年的趋势不是二选一，而是混合。部分层用 Dense、部分层用 MoE，试图在稳定性和效率之间找到更好的平衡。比如在一些模型中，靠近输入的层用 Dense（保证基础特征提取的稳定性），靠近输出的层用 MoE（在高层语义上获得专家分工的优势）。

这种混合架构目前还在探索阶段，没有统一的标准做法，但方向是清晰的。

给一个实用的判断框架：

一句话：Dense 追求简单稳定，MoE 追求性价比和规模。大多数生产级部署正在倒向 MoE，但 Dense 在小规模和端侧场景下仍然有明确的价值。