
选 Dense 还是选 MoE?这个问题在 2025 年之后已经不怎么争议了——大多数顶级闭源模型(GPT-4 系列、Gemini、DeepSeek-V3)都用了 MoE。但这不意味着 Dense 没用了。两种架构各有清晰的能力边界,选错架构的代价远大于选错模型大小。
两种架构在做什么
Dense 模型就是传统的 Transformer。每个 token 在前向传播时,会经过 FFN 层的全部参数。激活参数 = 总参数,没有任何浪费,也没有任何节省。
MoE(Mixture of Experts)把 FFN 层拆成多个专家网络,加一个路由器。每个 token 来了,路由器判断"这个 token 该交给哪几个专家处理",只激活 Top-K 个(通常 K=1~2)。总参数可以做得很大,但每次推理只用一小部分。
一个类比:Dense 是一个全科医生,什么病都看,每次问诊要调用自己的全部知识;MoE 是一个分诊台 + 多个专科医生,分诊台快速判断该挂哪个科,只让对应的医生出诊。
核心维度对比
维度
Dense
MoE
激活参数
总参数 = 激活参数(100%)
仅激活 Top-K 专家,激活参数远小于总参数
推理计算量
与总参数成正比
与激活参数成正比,同等总参数下快几倍
模型容量
受计算预算限制,难以做到极大
轻松做到万亿级总参数
参数效率
较低——相同计算预算下,能承载的知识量有限
更高——同样的 FLOPs 能训练出更大的模型
显存占用
推理时加载全部参数
推理时仍需加载全部参数(所有专家都在内存里),计算只用少部分
知识专业化
统一表示,所有知识混在一起
专家可自然产生分工(数学、代码、语言等)
训练稳定性
简单、稳定
需处理负载均衡、路由器训练、专家坍缩等问题
部署复杂度
低
高——路由逻辑、通信开销、专家调度
微调友好度
相对友好
更复杂,需要考虑专家冻结/解冻策略
关键数据点
Mixtral 8x7B 是最能说明问题的案例:总参数约 47B,但每个 token 只激活约 13B。在多数基准测试上,它逼近甚至超过了 Llama 2 70B(一个 Dense 模型),推理速度快得多。
DeepSeek-V3 走得更远——总参数 671B,激活参数只有 37B,用极低的推理成本提供了顶级性能。
反过来也有数据:在同等激活参数下,Dense 模型通常更强。因为所有参数在协同工作,没有路由器的选择开销。MoE 本质上是"用更多总参数换计算效率"的 trade-off。
Dense 的真实优势
MoE 几乎在所有效率指标上占优,但 Dense 在几个场景下仍然是更好的选择:
小规模部署和端侧推理。 MoE 的总参数大,意味着推理时需要把所有专家都加载到显存里。一个 47B 总参的 MoE,推理时的显存需求和 47B Dense 差不多(甚至因为路由开销略高),尽管实际计算量只有 13B 级别。如果显存不够装下全部专家,MoE 的优势就变成了劣势。
训练稳定性要求高的场景。 MoE 训练要面对负载不均衡(某些专家被过度使用)、专家坍缩(某些专家长期不被路由到)、路由器训练不稳定等问题。Dense 没有这些麻烦,训练 pipeline 更可预测。
微调场景。 Dense 模型的微调更直观——全量微调或 LoRA 都有成熟方案。MoE 微调需要决定是冻结大部分专家只调几个,还是全部放开,策略空间更大,踩坑概率也更大。
MoE 的真实优势
大规模商业部署。 高并发、高吞吐场景下,MoE 的推理成本优势是决定性的。同一个 GPU 上,MoE 能服务的请求数量远超同等性能的 Dense 模型。
Scaling 效率。 相同 FLOPs 预算下,MoE 能训练出更强的模型。因为能把参数规模做得更大,模型容量更大,能学到更多知识。这也是为什么主流大厂都选择了 MoE 路线。
多领域能力。 专家的自然分工让 MoE 在多语言、多任务场景下有优势。不同专家可能自发专精于不同领域,虽然这种专业化程度因模型而异。
混合架构:第三条路
2025-2026 年的趋势不是二选一,而是混合。部分层用 Dense、部分层用 MoE,试图在稳定性和效率之间找到更好的平衡。比如在一些模型中,靠近输入的层用 Dense(保证基础特征提取的稳定性),靠近输出的层用 MoE(在高层语义上获得专家分工的优势)。
这种混合架构目前还在探索阶段,没有统一的标准做法,但方向是清晰的。
怎么选
给一个实用的判断框架:
- 显存充足、追求极致单模型质量 → Dense
- 高并发部署、成本敏感 → MoE
- 端侧/本地部署(显存有限) → 优先小 Dense,MoE 除非做了专家卸载优化
- 训练资源有限但要大模型效果 → MoE(相同 FLOPs 下更强)
- 需要频繁微调 → Dense 更稳妥,MoE 也可以但需要更多工程投入
一句话:Dense 追求简单稳定,MoE 追求性价比和规模。大多数生产级部署正在倒向 MoE,但 Dense 在小规模和端侧场景下仍然有明确的价值。