news 2026/4/23 13:05:36

DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

一向低调的DeepSeek,在凌晨悄然更新了 GitHub。

没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram

更耐人寻味的是,这篇论文的作者列表中,再次出现了梁文锋的名字。

论文标题很“工程味”:

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

一句话概括:这是一次试图把「记忆」从神经网络里拆出来的架构实验。

而不少开发者已经开始猜测——这可能不是一篇“孤立论文”,而是 DeepSeek 下一代模型(V4)的重要技术预告。


一、一个长期被忽视的问题:大模型到底在“算什么”?

当前主流的大模型,无论是 Dense Transformer,还是 MoE,本质上都在做同一件事:

用大量连续矩阵计算,去完成两类完全不同的工作。

第一类,是事实性记忆。 例如:

  • 法国的首都是哪

  • 某个 API 的固定用法

  • 常见代码模板、语法结构

这些问题,本质上更接近查表

第二类,是组合推理与计算。 例如:

  • 多步逻辑推导

  • 复杂上下文理解

  • 抽象概念的重新组合

这才是真正需要神经网络“算”的地方。

问题在于:我们一直在用同一套高成本的神经计算,同时承担这两种职责。

MoE 解决了什么? 它解决的是:

参数规模 ≠ 计算量必须线性增长

但 DeepSeek 的观察更进一步:

即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。

于是 Engram 出现了。


二、Engram 在做什么?一句话:该查的,别算

“Engram” 是神经科学中的术语,意为记忆痕迹

在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块

核心思想并不复杂,但非常“反直觉”:

把一部分模型能力,从连续神经计算,转移到确定性查找。

具体来说,Engram 做了三件事:

第一,它不再试图“理解”所有 token。 而是将输入切分成N-gram 片段(连续 token 组合)。

第二,这些 N-gram 会通过哈希映射,直接定位到一个巨大的 Lookup Table。

第三,查找是确定性的、O(1) 复杂度。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。

这意味着什么?

模型可以用极低的算力,调用海量“已知模式”。


三、一条新的稀疏性轴:它和 MoE 并不冲突

论文里有一句很关键的话:

Engram introducesa new axis of sparsity.

这句话的分量不小。

MoE 的稀疏性,是:

  • 条件计算

  • 只激活少量专家网络

Engram 的稀疏性,是:

  • 条件查找

  • 只命中极少量记忆条目

两者解决的是不同问题。

可以这样理解:

模块

在干什么

Engram

快速回忆“我以前见过什么”

MoE / Transformer

认真思考“现在该怎么推理”

在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络,终于可以把算力集中在真正困难的推理任务上。


四、为什么工程师会对它这么兴奋?

在 Reddit、X 等社区里,技术讨论的焦点并不在“效果提升了多少”,而在几个更底层的点上:

第一,确定性寻址。 哈希 + 查表意味着:

  • 逻辑清晰

  • 行为稳定

  • 可预测

这对工程系统来说,价值极高。

第二,潜在的硬件友好性。 有开发者指出:

Engram 的查找表,理论上可以放在主机内存中,而不是全部压在 GPU 上。

这让“本地部署大模型”的想象空间突然变大了。

第三,它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。

但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置


五、V4 会用吗?没人官宣,但信号已经很明显

DeepSeek 并没有说 Engram 会直接进入 V4。

但社区的推断并非空穴来风:

  • 这是一个可独立插拔的模块

  • 它解决的是长期存在的结构性问题

  • 论文中大量讨论的是规模化行为,而非小模型技巧

更重要的是,这种设计理念,和 DeepSeek 过去的路线高度一致:

不盲目堆参数,而是不断重构“算力应该花在哪里”。

如果说 V2 / V3 的关键词是MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:

记忆与推理的结构性分离。


六、人工智能测试开发训练营

霍格沃兹测试开发学社做课程时,我们很少从“模型参数”讲起。

原因很简单:

大多数工程师真正缺的,不是论文阅读能力,而是把 AI 变成系统能力的路径。

无论是 Agent、RAG,还是今天看到的 Engram,本质上都在指向同一个方向:

AI 已经进入“工程复杂度主导”的阶段。

这也是我们课程一直强调的重点:

  • AI 系统如何拆模块

  • 推理链路如何可控

  • 复杂能力如何工程化落地

不是追某一个模型版本,而是建立长期可迁移的能力结构。


写在最后

Engram 并不是在“否定神经网络”。

它做的,只是一个极其工程化、但极其重要的判断:

不是所有智能,都值得用矩阵乘法来实现。

当模型规模继续扩大, 也许真正决定上限的,不再是参数数量, 而是——你是否知道,哪些东西该算,哪些东西只需要记住。

这条路,一旦走通,影响的不会只是 DeepSeek。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:53:48

终极RimSort模组管理指南:告别加载冲突的完整解决方案

终极RimSort模组管理指南:告别加载冲突的完整解决方案 【免费下载链接】RimSort 项目地址: https://gitcode.com/gh_mirrors/ri/RimSort 还在为《环世界》模组加载冲突而烦恼吗?当精心配置的殖民地因为模组加载顺序问题而崩溃时,那种…

作者头像 李华
网站建设 2026/4/10 7:43:15

3分钟掌握终极WZ文件编辑器:你的《冒险岛》游戏定制秘籍

3分钟掌握终极WZ文件编辑器:你的《冒险岛》游戏定制秘籍 【免费下载链接】Harepacker-resurrected All in one .wz file/map editor for MapleStory game files 项目地址: https://gitcode.com/gh_mirrors/ha/Harepacker-resurrected 想要彻底掌控《冒险岛》…

作者头像 李华
网站建设 2026/4/23 0:11:29

layui-admin:企业级权限管理系统的商业价值与技术实现

layui-admin:企业级权限管理系统的商业价值与技术实现 【免费下载链接】layui-admin 基于layui2.x的带后台的通用管理系统 项目地址: https://gitcode.com/gh_mirrors/la/layui-admin 在数字化转型浪潮中,企业管理系统已成为组织效率提升的核心引…

作者头像 李华
网站建设 2026/3/24 8:39:02

如何在Windows上获得最佳B站观影体验:BiliBili-UWP完整使用指南

如何在Windows上获得最佳B站观影体验:BiliBili-UWP完整使用指南 【免费下载链接】BiliBili-UWP BiliBili的UWP客户端,当然,是第三方的了 项目地址: https://gitcode.com/gh_mirrors/bi/BiliBili-UWP 还在为Windows系统上观看B站视频的…

作者头像 李华
网站建设 2026/4/8 8:41:13

GoB插件终极指南:轻松打通Blender与ZBrush创作壁垒 [特殊字符]

GoB插件终极指南:轻松打通Blender与ZBrush创作壁垒 🎨 【免费下载链接】GoB Fork of original GoB script (I just added some fixes) 项目地址: https://gitcode.com/gh_mirrors/go/GoB 还在为Blender和ZBrush之间的模型转换而头疼吗&#xff1f…

作者头像 李华
网站建设 2026/4/23 12:29:28

开箱即用体验:Cute_Animal_Qwen镜像让AI绘画变得超简单

开箱即用体验:Cute_Animal_Qwen镜像让AI绘画变得超简单 1. 引言:儿童友好型AI绘画的实践价值 随着多模态大模型技术的发展,AI生成内容(AIGC)正逐步从专业创作工具向大众化、场景化应用演进。特别是在面向儿童教育和亲…

作者头像 李华