news 2026/4/23 11:51:24

AI 论文周报丨Transformer前沿研究专题导读,解析结构稀疏化、记忆机制与推理组织的最新进展

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 论文周报丨Transformer前沿研究专题导读,解析结构稀疏化、记忆机制与推理组织的最新进展

过去八年,Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You Need」中提出这一架构以来,「注意力机制」逐渐从一种工程技巧演变为深度学习的通用范式——从自然语言处理到计算机视觉,从语音、多模态到科学计算,Transformer 正在成为事实上的基础模型骨架。

以 Google、OpenAI、Meta、Microsoft 为代表的工业界不断推动其规模化与工程化极限,而斯坦福、MIT、伯克利等高校则在理论分析、结构改进与新范式探索上持续输出关键成果。在模型规模、训练范式与应用边界不断被拓展的同时,Transformer 领域的研究也呈现出高度分化与快速演进的趋势——这使得系统性梳理与精选代表性论文,变得尤为必要。

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。

* 最新 AI 论文:https://go.hyper.ai/hzChC

本周,我们为大家精心挑选了 5 篇有关 Transformer 的热门论文,涵盖北大、DeepSeek、字节跳动 Seed、Meta AI 等团队,一起来学习吧!⬇️

本周论文推荐

1

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

北京大学与 DeepSeek-AI 的研究者提出 Engram,一种具有 O(1) 查找复杂度的可扩展条件记忆模块,通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补,从而释放早期层用于更深层的推理计算,并在推理任务(BBH +5.0,ARC-Challenge +3.7)、代码与数学任务(HumanEval +3.0,MATH +2.4)以及长上下文任务(Multi-Query NIAH:84.2 → 97.0)上取得显著提升,同时保持等参数量与等 FLOPs 的效率。

论文及详细解读https://go.hyper.ai/SlcId

Engram 模型结构示例

2

STEM: Scaling Transformers with Embedding Modules

卡内基梅隆大学与 Meta AI 的研究人员联合提出一种静态的、基于标记索引的稀疏架构——STEM。用层内嵌入查找替代 FFN 的上投影,实现稳定训练,将每标记的 FLOPs 和参数访问量减少约三分之一,并通过可扩展的参数激活提升长上下文性能。通过将容量与计算和通信解耦,STEM 支持异步预取的 CPU 卸载,利用具有大角度分布的嵌入实现更高的知识存储容量,同时无需修改输入文本即可实现可解释、可编辑的知识注入,在知识和推理基准测试中,相比密集基线性能提升高达约 3–4%。

论文及详细解读https://go.hyper.ai/NPuoj

STEM 系统架构示例

数据集由多个来源组成:OLMo-MIX-1124(3.9T标记),为 DCLM 与 Dolma1.7 的混合;NEMOTRON-CC-MATH-v1(数学导向);以及NEMOTRON-PRETRAINING-CODE-v1(代码导向)。

数据集

3

SeedFold: Scaling Biomolecular Structure Prediction

字节跳动 Seed 团队提出 SeedFold,一种可扩展的生物分子结构预测模型,通过扩大 Pairformer 的宽度提升模型容量,采用线性三角注意力机制降低计算复杂度,并利用包含 2650 万样本的蒸馏数据集,在 FoldBench 上达到最先进性能,且在蛋白质相关任务上超越 AlphaFold3。

论文及详细解读https://go.hyper.ai/9zAID

新型线性三角注意力模块示例

SeedFold 的数据集包含 2650 万样本,通过从两个主要来源进行大规模数据蒸馏扩展:实验数据集(0.18M)和源自 AFDB 与 MGnify 的蒸馏数据集。

数据集

4

Are Transformers Effective for

Time Series Forecasting?

本文发现,尽管 Transformer 在时序预测领域迅速流行,其自注意力机制的排列不变性会损失关键时间信息。通过对比实验,简单的单层线性模型在多个真实数据集上显著超越了复杂的 Transformer 模型。这一发现挑战了现有研究方向,并呼吁重新评估 Transformer 在时序任务中的有效性。

论文及详细解读https://go.hyper.ai/Hk05h

现有基于 Transformer 的时间序列预测方案的流程示例

相关 benchmarks 如下:

5

Reasoning Models Generate

Societies of Thought

谷歌、芝加哥大学与圣塔菲研究所的研究人员提出,像 DeepSeek-R1 和 QwQ-32B 这样的先进推理模型之所以表现卓越,并非仅仅因为更长的思维链,而是通过隐式模拟一种「思想社会」——即模型内部具有不同人格与专长的多样化视角之间类似多智能体的对话。通过机制可解释性与受控强化学习,他们证明了对话行为(如提问、冲突、调和)以及视角多样性与准确率之间存在因果关系,其中对「惊讶」的话语标记进行引导可使推理性能翻倍。这种思想的社会化组织使得对解空间的系统性探索成为可能,表明集体智能原则——多样性、辩论与角色协调——是有效人工推理的核心基础。

论文及详细解读https://go.hyper.ai/0oXCC

多维度框架示例

数据集包含 8,262 个来自多个领域的推理问题,涵盖符号逻辑、数学求解、科学推理、指令遵循及多智能体推理,支持多视角推理,用于训练与评估模型。

数据集

以上就是本周论文推荐的全部内容,更多 AI 前沿研究论文,详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文,有意向者可添加神经星星微信(微信号:Hyperai01)。

下周再见!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:50:15

使用BroRL扩展探索突破强化学习训练瓶颈

使用BroRL的扩展探索突破强化学习训练瓶颈 在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL&#xf…

作者头像 李华
网站建设 2026/4/20 23:33:17

2026版大厂Java面试 / 学习指南,共计1100+ 题全面解析

程序员一步入中年,不知不觉便会被铺天盖地的“危机感”上身,曾经的那个少年已经不在,时间就是这样公平。就算你能发明 Java 语言,随着时间的推移,你注定还是要成为慢慢变蔫的茄子,缓缓变黑的葡萄。 看着金…

作者头像 李华
网站建设 2026/3/11 18:18:49

本土化战略赋能:Gitee如何重塑企业级项目管理新范式

本土化战略赋能:Gitee如何重塑企业级项目管理新范式 在全球数字化转型浪潮下,项目管理工具已成为企业提升协作效率的刚需。随着国内企业对数据主权和本土化服务需求的显著提升,以Gitee为代表的本土项目管理平台正迎来前所未有的发展机遇。在功…

作者头像 李华
网站建设 2026/3/26 20:30:52

算法备案中 服务提供者与技术支持者的区别

一、服务提供者: 定义与定位: 服务提供者,是直接向最终用户(C端客户)提供算法服务的主体。他们是算法应用的直接运营者,也是用户体验的最终承载者。 核心特征: C端服务属性: 服务提…

作者头像 李华
网站建设 2026/4/11 19:08:10

621-9934 I/O 机架电源

621-9934 I/O 机架电源简介:621-9934 是工业自动化系统中用于 I/O 机架的电源模块为机架内的 I/O 模块提供稳定、可靠的工作电源支持多路输出,保证各模块同时正常运行具备过载与短路保护,提高系统安全性输出电压稳定,降低电源波动…

作者头像 李华
网站建设 2026/4/23 10:47:40

线上二手交易小程序源码系统 源码全开源可以二开

温馨提示:文末有资源获取方式 随着消费观念的升级与可持续生活方式的普及,线上二手交易正成为数字经济中不可或缺的一环。一个成功的平台不仅需要稳固的交易功能,更需要独特的社区氛围与用户粘性。我们向您推荐一款深度融合电商与社交基因的二…

作者头像 李华