news 2026/4/23 11:11:11

DeepSeek 提出新架构 mHC 详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 提出新架构 mHC 详解

mHC: Manifold-Constrained Hyper-Connections——把“超连接”拉回稳定轨道的残差新范式

这篇论文讨论了一个看似“简单但很关键”的问题:我们给残差流加宽、加连接(Hyper-Connections, HC)确实能涨分,但同时打破了残差里最重要的identity mapping性质,训练会不稳定、规模上不去,系统层面还会拖慢。作者提出 mHC(Manifold-Constrained Hyper-Connections),用流形约束把残差映射投影到双随机矩阵上,从理论与工程两端同时解决问题。


1. 背景:残差连接为何能稳定训练?

标准残差层的形式是:

x l + 1 = x l + F ( x l , W l ) \mathbf{x}_{l+1} = \mathbf{x}_l + \mathcal{F}(\mathbf{x}_l, \mathcal{W}_l)xl+1=xl+F(xl,Wl)

多层展开得到:

x L = x l + ∑ i = l L − 1 F ( x i , W i ) \mathbf{x}_L = \mathbf{x}_l + \sum_{i=l}^{L-1}\mathcal{F}(\mathbf{x}_i, \mathcal{W}_i)xL=xl+i=lL1F(xi,Wi)

这里的x l \mathbf{x}_lxl就是 “恒等映射” 通道,保证信号能直达深层,避免梯度爆炸/消失。


2. HC 的核心思想与问题

HC 把残差流扩成n nn条并让它们相互通信:

x l + 1 = H l r e s x l + H l p o s t ⊤ F ( H l p r e x l , W l ) \mathbf{x}_{l+1} = \mathcal{H}^{\mathrm{res}}_l \mathbf{x}_l + \mathcal{H}^{\mathrm{post}\,\top}_l \mathcal{F}(\mathcal{H}^{\mathrm{pre}}_l\mathbf{x}_l, \mathcal{W}_l)xl+1=Hlresxl+HlpostF(Hlprexl,Wl)

  • H l r e s ∈ R n × n \mathcal{H}^{\mathrm{res}}_l \in \mathbb{R}^{n\times n}HlresRn×n:残差流之间的混合矩阵
  • H l p r e , H l p o s t \mathcal{H}^{\mathrm{pre}}_l, \mathcal{H}^{\mathrm{post}}_lHlpre,Hlpost:读写矩阵

问题:多层串联后,∏ H r e s \prod \mathcal{H}^{\mathrm{res}}Hres会偏离恒等映射,信号会被放大或衰减到不可控,训练不稳定。


3. mHC 的核心思路:把残差映射约束到流形上

作者的关键直觉是:
既要跨流交互,又要保持全局“能量守恒”

于是将H l r e s \mathcal{H}^{\mathrm{res}}_lHlres约束为双随机矩阵

P M r e s ( H l r e s ) = { H l r e s ∈ R n × n ∣ H l r e s 1 n = 1 n , 1 n ⊤ H l r e s = 1 n ⊤ , H l r e s ≥ 0 } \mathcal{P}_{\mathcal{M}^{\mathrm{res}}}(\mathcal{H}^{\mathrm{res}}_l)= \left\{ \mathcal{H}^{\mathrm{res}}_l \in \mathbb{R}^{n\times n}\;|\; \mathcal{H}^{\mathrm{res}}_l\mathbf{1}_n=\mathbf{1}_n,\; \mathbf{1}_n^\top\mathcal{H}^{\mathrm{res}}_l=\mathbf{1}_n^\top,\; \mathcal{H}^{\mathrm{res}}_l\ge 0 \right\}PMres(Hlres)={HlresRn×nHlres1n=1n,1nHlres=1n,Hlres0}

好处:

  • 谱范数≤ 1 \le 11,防止信号放大
  • 闭包性:多层相乘仍是双随机矩阵
  • 几何意义:Birkhoff 多面体 = 置换矩阵的凸包,等价于“稳定混合”

4. 参数化与 Sinkhorn-Knopp 投影

mHC 仍使用 HC 的动态+静态映射机制,但在输出时做约束:

H l r e s = Sinkhorn-Knopp ( H ~ l r e s ) \mathcal{H}^{\mathrm{res}}_l = \text{Sinkhorn-Knopp}(\tilde{\mathcal{H}}^{\mathrm{res}}_l)Hlres=Sinkhorn-Knopp(H~lres)

迭代形式:

M ( t ) = T r ( T c ( M ( t − 1 ) ) ) \mathbf{M}^{(t)}=\mathcal{T}_r(\mathcal{T}_c(\mathbf{M}^{(t-1)}))M(t)=Tr(Tc(M(t1)))

  • 先指数化保证正值
  • 再交替行/列归一化
  • 论文使用t max ⁡ = 20 t_{\max}=20tmax=20

同时H l p r e , H l p o s t \mathcal{H}^{\mathrm{pre}}_l, \mathcal{H}^{\mathrm{post}}_lHlpre,Hlpost也用 Sigmoid 保证非负,避免正负抵消。


5. 训练不稳定的实证证据

下图展示 HC 在大规模训练中 loss 和梯度的异常波动:

图解:左图是 HC 相对 mHC 的 loss gap,右图是梯度范数。HC 在 12k step 处出现突增,证明残差流失控。

同时,HC 的残差映射组合出现极端放大(最大增益接近 3000):

图解:横轴是层索引,纵轴是前向行和/反向列和的最大值。HC 的增益远离 1,代表严重失衡。


6. mHC 的稳定性对比

mHC 把增益控制在 1.6 左右:

图解:mHC 的单层与复合映射增益基本围绕 1,稳定性明显改善。

热力图对比也显示 mHC 更“平稳”:

图解:HC 显示高幅度混乱区域,而 mHC 更均匀,说明残差流混合受控。


7. 系统层面的优化:不仅能训练,还能跑得快

HC 的问题不仅在理论稳定性,还有系统开销

  • I/O 读写量随n nn线性上升
  • Residual stream 变宽导致显存和通信开销大幅增加

mHC 通过三类优化降低开销:

7.1 Kernel Fusion

融合 RMSNorm + 线性投影 + Sigmoid / Sinkhorn 等步骤,减少内存访问。

7.2 Recomputing

只保存每L r L_rLr层的输入,其他中间激活通过重算节省显存:

L r ∗ ≈ n L n + 2 L_r^* \approx \sqrt{\frac{nL}{n+2}}Lrn+2nL

7.3 DualPipe 通信重叠

在 pipeline stage 间重叠 recompute 和通信,减小气泡。

图解:展示了 DualPipe 扩展后的调度方式,重点是把 FFN 的残差合并操作放到高优先级 stream,避免阻塞通信。


8. 主实验结果

27B 模型训练表现:

图解:mHC 在 loss 与梯度稳定性上接近 baseline,同时优于 HC。

性能表显示 mHC 稳定超越 baseline 和 HC:

BenchmarkBaselineHCmHC
BBH (EM)43.848.951.0
DROP (F1)47.051.653.9
GSM8K (EM)46.753.253.8
MMLU (Acc.)59.063.063.4

9. Scaling 维度验证

mHC 的优势在更大计算预算下仍然保留:

图解:左图是 compute scaling(3B/9B/27B),右图是 token scaling(固定 3B 模型)。mHC 的相对收益稳定存在。


10. 附录要点(超参 & 训练配置)

论文附录给出 3B/9B/27B 的详细配置:

  • expansion raten = 4 n=4n=4
  • Sinkhorn 迭代t max ⁡ = 20 t_{\max}=20tmax=20
  • RMSNormϵ = 1 × 10 − 20 \epsilon=1\times10^{-20}ϵ=1×1020
  • 训练 token 数:3B(39.3B) / 9B(105B) / 27B(262B)

这些超参在大模型训练中保持一致,说明 mHC 的设计具备可扩展性。


11. 总结:为什么 mHC 值得关注?

  • 从理论上保证稳定性:双随机矩阵 = “恒等映射的可控扩展”
  • 从工程上保证可落地:kernel fusion + recompute + pipeline overlap
  • 实证上稳扎稳打:loss 更稳、梯度更稳、下游表现更好

如果说 HC 是 “大胆扩宽残差流”,那么 mHC 就是 “给扩宽后的流做物理约束”,让它既自由不失控


12. 图示总览:核心结构对比

图解:左是标准残差,中是 HC(无约束混合),右是 mHC(投影到双随机矩阵流形)。mHC 的关键点是 “保留混合能力但防止信号失衡”。


本文参考自 mHC: Manifold-Constrained Hyper-Connections

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/21 14:38:12

Keil调试教程:驱动层开发超详细版指南

Keil调试实战:从寄存器到DMA的驱动层深度调试指南在嵌入式开发的世界里,写驱动不是最难的——让驱动真正跑起来、不出错、可追踪,才是工程师每天面对的真实战场。尤其是当你面对一块全新的MCU板子,串口没输出、ADC采不到数据、DMA…

作者头像 李华
网站建设 2026/4/19 12:44:21

51单片机蜂鸣器与红外感应结合的入侵报警项目应用

51单片机遇上红外感应:一个低成本入侵报警系统的设计与实现你有没有过这样的经历?晚上在家,突然听到窗外有异响,心跳瞬间加快——但又不敢确认是不是真有人闯入。这时候,如果有个小装置能第一时间发出警报,…

作者头像 李华
网站建设 2026/4/17 10:59:40

Protues元器件库与第三方库融合实战

打造专属电路仿真库:Proteus元器件扩展实战全攻略你有没有遇到过这样的场景?正在搭建一个基于STM32的智能家居控制板,原理图画到一半,突然发现——ESP8266模块找不到,CH340G烧录芯片也没有,连常用的INA219电…

作者头像 李华
网站建设 2026/4/17 22:27:21

2025年度GRIT全球最具创新性洞察与分析公司50强榜单

、美通社消息:益普索在2025年度GRIT全球最具创新性洞察与分析公司50强榜单中再度荣登榜首,已连续三年蝉联冠军宝座。年度GRIT最具创新性洞察与分析公司50强榜单源自对全球范围内消费者洞察领域客户、供应商及行业专业人士的调研。在参与评估的1,462家洞察…

作者头像 李华
网站建设 2026/4/18 8:45:12

STM32CubeMX固件包下载支持的USB类型全面讲解

STM32开发中的USB全解析:从固件下载到调试升级的实战指南 你有没有遇到过这种情况: 明明代码写好了,STM32CubeMX也配置完毕,结果一点击“下载”,PC却死活识别不到你的开发板? 或者好不容易烧录成功&…

作者头像 李华