DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级-深圳市維司達科技有限公司

2026年新年第一天，DeepSeek上传新论文。

给何恺明2016成名作ResNet中提出的深度学习基础组件“残差连接”来了一场新时代的升级。

DeepSeek梁文峰亲自署名论文，共同一作为Zhenda Xie , Yixuan Wei, Huanqi Cao。

残差连接十年未变，扩展之后却带来隐患

残差连接自2016年ResNet问世以来，一直是深度学习架构的基石。

其核心机制简洁明了，x𝑙+1 = x𝑙 + F (x𝑙 ,W𝑙)，即下一层的输出等于当前层输入加上残差函数的输出。

这个设计之所以成功，关键在于“恒等映射”属性，信号可以从浅层直接传递到深层，不经任何修改。

随着Transformer架构的崛起，这一范式已成为GPT、LLaMA等大语言模型的标准配置。

这个设计之所以成功，关键在于“恒等映射”属性，信号可以从浅层直接传递到深层，不经任何修改。

近期出现的Hyper-Connections（HC）试图打破这一格局。HC由字节跳动Seed团队在2024年首次提出，它将残差流的宽度从C维扩展到n×C维，并引入三个可学习的映射矩阵来管理信息流动。

DeepSeek团队的实验表明，在这三个映射中，负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升。

但问题随之而来，当HC扩展到多层时，复合映射不再保持恒等性质。

论文中展示的27B模型训练曲线显示，HC在约12000步时出现了突发的损失激增，梯度范数也表现出剧烈波动。

研究团队计算了复合映射对信号的放大倍数：在HC中，这个值的峰值达到了3000，意味着信号在层间传播时可能被放大数千倍，或者相应地被衰减至近乎消失。

双随机矩阵的三重保障

DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上，一个由双随机矩阵构成的Birkhoff多面体。

双随机矩阵的每一行和每一列之和都等于1，所有元素非负。这种约束带来了三个关键的理论性质。

第一是范数保持：双随机矩阵的谱范数不超过1，这意味着信号在经过映射后不会被放大，有效防止了梯度爆炸。

第二是组合封闭：多个双随机矩阵相乘的结果仍然是双随机矩阵，因此无论网络多深，跨层的复合映射都能保持稳定性。

第三是几何解释：Birkhoff多面体是所有排列矩阵的凸包，残差映射实际上是在对特征做凸组合，相当于一种稳健的特征融合机制。

为了将任意矩阵投影到这个流形上，论文采用了Sinkhorn-Knopp算法。该算法先对矩阵取指数使所有元素为正，然后交替对行和列进行归一化，迭代收敛到双随机矩阵。

实验数据显示，这个近似解已经足够有效：在27B模型中，mHC的复合映射信号增益最大值约为1.6，与HC的3000形成了三个数量级的差距。

工程优化：从内核融合到流水线重叠

接下来进入DeepSeek的拿手好戏，工程优化环节。

扩展残差流宽度必然带来额外的内存访问开销，论文详细分析了每个token的内存读写成本：

标准残差连接需要读取2C个元素、写入C个元素，而HC需要读取(5n+1)C + n² + 2n个元素、写入(3n+1)C + n² + 2n个元素。

当扩展率n=4时，这是一个相当可观的增量。

团队为此开发了一系列基础设施优化，他们使用TileLang框架实现了多个融合内核，将原本分散的操作合并执行以减少内存访问次数。

针对Sinkhorn-Knopp算法，他们设计了专门的前向和反向内核，在芯片上重新计算中间结果以避免存储开销。

在流水线并行方面，他们扩展了DualPipe调度策略，通过将MLP层的特定内核放在高优先级计算流上执行，实现了计算与通信的重叠。

论文还给出了重计算策略的优化公式。对于L层的网络，最优的重计算块大小约为：

这个值通常与流水线阶段的层数相当，因此研究者选择将重计算边界与流水线阶段边界对齐。

实验验证：稳定性与性能兼得

论文在3B、9B和27B三个规模的MoE模型上进行了验证，扩展率n设为4。

在27B参数的MoE模型上，mHC展现出稳定的训练曲线，最终损失相比基线降低了0.021，同时保持了与baseline相当的梯度范数稳定性。

在下游任务评测中，mHC在BBH推理任务上比HC提升2.1%，在DROP阅读理解任务上提升2.3%。mHC在大多数任务上不仅超过基线，还超过了HC。

计算缩放曲线显示，mHC的性能优势在更高计算预算下仍然保持，仅出现轻微衰减。对3B模型的token缩放曲线分析表明，mHC的优势贯穿整个训练过程。

论文提到，内部的大规模训练实验进一步证实了这些结论，且当扩展率n=4时，mHC仅引入6.7%的额外时间开销。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

程序员破防了！OpenSearch黑科技让AI检索速度提升10倍，5分钟上手告别5秒延迟！

DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

残差连接十年未变，扩展之后却带来隐患

双随机矩阵的三重保障

工程优化：从内核融合到流水线重叠

实验验证：稳定性与性能兼得

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

MySQL保姆级教程：从安装部署到核心概念，快速上手避坑指南

计算机毕设从选题到答辩，全程可指导（真实案例）

深度学习计算机毕设之基于人工智能python深度学习的砖头墙裂缝识别

【计算机毕业设计案例】基于卷神经网络的训练形状识别

艾体宝案例 | 从关系到语义：ArangoDB如何支撑高精度水军识别

残差连接十年未变，扩展之后却带来隐患

双随机矩阵的三重保障

工程优化：从内核融合到流水线重叠

实验验证：稳定性与性能兼得

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

程序员破防了！OpenSearch黑科技让AI检索速度提升10倍，5分钟上手告别5秒延迟！

MySQL保姆级教程：从安装部署到核心概念，快速上手避坑指南

计算机毕设从选题到答辩，全程可指导（真实案例）

深度学习计算机毕设之基于人工智能python深度学习的砖头墙裂缝识别

【计算机毕业设计案例】基于卷神经网络的训练形状识别

艾体宝案例 | 从关系到语义：ArangoDB如何支撑高精度水军识别

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】