news 2026/4/23 14:11:16

DeepSeek 发布全新论文,一文读懂 Engram!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 发布全新论文,一文读懂 Engram!

在大模型的发展历程中,一个长期困扰研究者效率的难题是:模型往往需要消耗昂贵的计算资源去重建那些本可以通过简单查询获得的静态知识。

近日,DeepSeek 团队发布重磅论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models,由梁文锋等研究者署名,宣布为大模型架构开辟了一个全新的稀疏性维度:条件记忆(Conditional Memory)

为什么 MOE 还不够

长期以来,MoE(专家混合模型)是大模型稀疏性的事实标准。它通过条件计算平衡了模型容量与计算成本。但 DeepSeek 指出,语言信号具有高度的异质性:

  • 动态推理:需要深度的神经计算。

  • 静态知识:如命名实体、公式,本应通过查找直接获取。

目前的 Transformer 缺乏原生的查找原语,被迫用昂贵的算力去运行时重建静态表,这极大地浪费了序列深度。

为此,DeepSeek 推出了Engram模块——一个将经典 N-gram 嵌入现代化,实现O(1) 常数级快速查找的高效知识外挂。

论文四个重点划线:

稀疏分配:发现 U 形扩展规律

研究团队为量化 Engram 与 MoE 之间的协同,论文提出稀疏性的分配问题。这也是该论文的核心。并通过大量实验发现了一个显著的U 形扩展规律(U-shaped scaling law)

  • 权衡关系:纯 MoE 架构缺乏专用内存,迫使模型通过计算低效重构静态模式;而过度分配给记忆则会损害模型的动态推理能力 。

  • 最佳平衡点:当大约 20%-25% 的稀疏参数预算分配给 Engram 时,模型性能达到峰值。例如在 10B 参数规模下,验证损失从 1.7248 降至 1.7109。

基于前述容量分配规律,研究团队训练了Engram-27B模型(总参数量 26.7B,激活参数 3.8B)。在该模型中,原 MoE-27B 的专家数量从 72 个减少到 55 个,同时将释放出的参数重新分配到 5.7B 参数的 Engram 内存中,使容量分配比例达到 ρ=74.3%\rho = 74.3\%ρ=74.3%。

经过预训练后,Engram-27B 在保持与 MoE-27B 相同参数规模和 FLOPs 的前提下,在知识与推理、通用推理、代码以及数学等多个任务上均表现出明显提升。

实证验证:全维度性能飞跃

在严格的等参数(iso-parameter)和等浮点运算量(iso-FLOPs)约束下,Engram-27B 模型在知识、推理、代码和数学等领域均表现出相较 MoE 基线的一致性提升。

预训练性能比较:Dense 模型、MoE 模型与 Engram 模型(来源:论文)

  • 知识储备:MMLU 提升 3.4 分,CMMLU 提升 4.0 分 。

  • 通用推理:最令人惊喜的是,复杂推理(BBH)提升了 5.0 分,科学推理(ARC-C)提升 3.7 分。

  • 代码与数学:HumanEval (+3.0) 和 MATH (+2.4) 同样显著提升。

  • 长文本能力:在“大海捞针”(Multi-Query NIAH)测试中,准确率从 84.2% 飙升至 97.0%。

机制分析:释放有效深度

为什么记性好能让逻辑更强?通过 LogitLens 和 CKA 分析发现Engram 接管了早期层对静态模式的重建工作。当底层不再需要浪费算力去死记硬背时,模型保留了更多的Effective Depth(有效深度)来处理深层语义,让大脑全身心投入高阶推导。
  • 底层减负:Engram 承担了早期层对静态模式(如固定搭配、实体名)的重建工作 。

  • 提升有效深度(Effective Depth):当底层不再浪费算力去死记硬背时,模型实际上获得了更深的表示能力来处理深层语义。

  • 解放注意力:通过将局部依赖交给 Engram 处理,模型释放了宝贵的注意力容量来聚焦全局上下文。

系统效率:突破显存天花板

在工程落地层面,Engram 展现了极致的基础设施感知特性 :

  • 确定性寻址:由于检索索引仅取决于输入序列,系统可以在计算当前层时,异步预取下一层所需的记忆向量 。

  • 打破显存瓶颈:DeepSeek 演示了将高达 100B 参数的嵌入表卸载到廉价的 CPU 内存中。

  • 极低开销:这种跨硬件搬运带来的额外推理延迟低于 3%。这为未来挂载 TB 级别的海量记忆库铺平了道路。

值得关注的是,论文最后明确指出,条件记忆将成为下一代稀疏模型中不可或缺的核心建模组件。

据外媒报道,DeepSeek 计划于 2 月发布其新一代旗舰 AI 模型DeepSeek V4。并且 V4 在多个关键指标上表现优异,与现有主流模型相比展现出一定优势,因此让人不禁拭目以待这款新旗舰的正式亮相。

参考论文:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf


DeepSeek 图书推荐

《一本书玩转 DeepSeek》

陈云飞(@花生)|著

超牛的 DeepSeek 应用书,作者是 AI 大佬花生,全书涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。

《图解DeepSeek技术》

[沙特] 杰伊·阿拉马尔, [荷] 马尔滕·格鲁滕多斯特 | 著

李博杰 孟佳颖 | 译

大模型领域知名专家 Jay & Maarten 作品。近 120 幅全彩插图通俗解读,不枯燥。从推理模型原理到 DeepSeek-R1 训练。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 19:37:48

美防长访问“星舰基地”透露哪些信息

学习“马斯克模式”,加速AI军事化,美防长访问“星舰基地”透露多重信息环球网【环球时报特约记者 晨阳 环球时报记者 刘扬】美国总统特朗普近日提议将2027年美国国防开支提高到创纪录的1.5万亿美元,同时要求阻止国防承包商派息及进行股票回购…

作者头像 李华
网站建设 2026/4/23 12:54:04

vue基于Python育才文具仓库管理系统 flask django Pycharm

目录 这里写目录标题目录项目介绍项目展示详细视频演示技术栈文章下方名片联系我即可~解决的思路开发技术介绍性能/安全/负载方面python语言Django框架介绍技术路线关键代码详细视频演示收藏关注不迷路!!需要的小伙伴可以发链接或者截图给我 项目介绍 …

作者头像 李华
网站建设 2026/4/23 10:05:46

​ Android 基础入门教程​2.5.9 AlertDialog(对话框)详解

2.5.9 AlertDialog(对话框)详解 分类 Android 基础入门教程 本节引言: 本节继续给大家带来是显示提示信息的第三个控件AlertDialog(对话框),同时它也是其他 Dialog的的父类!比如ProgressDialog,TimePickerDialog等,而…

作者头像 李华
网站建设 2026/4/23 10:05:46

百考通----考试通关如此简单!

还在题海中挣扎?智能学习时代已经到来!百考通——让学习更智能,让成功更简单!https://www.baikaotongai.com遇见学习困境的破局者你是否曾经:----面对堆积如山的复习资料无从下手?----反复刷题却总是在相同…

作者头像 李华
网站建设 2026/4/23 10:06:55

基于Python医院信息管理系统(源码+数据库+文档)

医院信息管理 目录 基于PythonDjango医院信息管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于PythonDjango医院信息管理系统 一、前言 博主介绍&#xff1a…

作者头像 李华
网站建设 2026/4/23 10:06:57

springboot基于协同过滤算法的运动场馆服务平台设计与实现

背景分析随着全民健身意识增强,运动场馆需求快速增长,但传统线下预约模式存在信息不对称、资源分配不均等问题。用户难以快速匹配符合偏好的场馆,场馆方也缺乏精准的用户推荐手段。技术意义协同过滤算法能分析用户历史行为数据(如…

作者头像 李华