news 2026/6/20 14:53:03

华为:LLM宽度与深度的适应性重用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
华为:LLM宽度与深度的适应性重用

📖标题:VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
🌐来源:arXiv, 2512.14531

🌟摘要

大型语言模型 (LLM) 的快速扩展取得了显着的性能,但它也会导致高昂的内存成本。现有的参数高效方法,如剪枝和量化,主要压缩预训练模型,而不增强架构容量,从而达到基础模型的表示上限。在这项工作中,我们提出了 VersatileFFN,一种新颖的前馈网络 (FFN),它可以在固定参数预算内灵活地重用宽度和深度维度上的参数。受认知双重过程理论的启发,VersatileFFN 包括两个自适应路径:一个宽度变换器路径,从单个共享 FFN 生成子专家的混合,在不增加参数的情况下模仿稀疏专家路由,以及一个深度通用路径,递归地应用相同的 FFN 来模拟复杂标记的更深层次的处理。一个难度感知门控通过高效的宽度方向动态平衡两条路径,通过高效的宽度方向转向“简单”标记,并将更深的迭代细化分配给“硬”标记。至关重要的是,两条路径重用相同的参数,因此所有额外的容量都来自计算而不是内存。跨不同基准和模型尺度的实验证明了该方法的有效性。该代码可在 https://github.com/huawei-noah/noah-research/ tree/master/VersatileFFN。

🛎️文章简介

🔸研究问题:如何在大语言模型(LLM)中实现参数效率,同时保持高性能?
🔸主要贡献:论文提出VersatileFFN架构,通过宽度与深度的适应性重用,显著提升了模型的参数效率和计算能力。

📝重点思路

🔸设计了一个VersatileFFN架构,集成了宽度可变通道(宽路径)和深度可变通道(深路径),这两条路径共享基础权重。
🔸宽路径模拟虚拟Mixture-of-Experts(MoE)模块,快速响应领域特定的任务而不增加参数量。
🔸深路径实现递归计算能力,通过重用相同的FFN计算单元,动态分配更深的计算层次给复杂的token。
🔸引入Gumbel-Softmax控制器,根据token复杂度动态预测迭代次数,从而灵活分配计算资源。

🔎分析总结

🔸VersatileFFN在多个基准测试中表现优于其他方法,展示了其在相同参数预算内的强大性能。
🔸相比Mixture-of-Experts架构和传统的k-Loop方法,VersatileFFN在保持较低的参数增加的同时,显著提升了准确率。
🔸该方法有效地将宽度与深度计算结合,实现了在参数效率和推理能力之间的最佳平衡。

💡个人观点

论文的创新点在于通过深度和宽度的适应性组合,开创了一种不需显著增加参数量即可提升模型能力的新范式,适用于资源受限环境中的推理任务。

🧩附录

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 5:59:06

【系列五】邮件数据安全:防泄密 智能归档

摘要:面对数据泄露的内部隐忧与合规监管的外部重压,单纯的边界防御邮件安全网关设备已不足以守护核心资产。网际思安通过“DLP防泄密智能归档”的双重机制,帮助企业实现从“敏感数据防流失”到“历史数据价值化”的全闭环治理。在上一篇【防御…

作者头像 李华
网站建设 2026/6/17 22:13:34

深入理解C++指针与动态内存管理

深入理解C指针与动态内存管理 一、指针的基本概念 指针是C中强大而重要的特性,它是一个变量,存储的是内存地址而不是值本身。通过指针,我们可以直接操作内存,实现高效灵活的内存管理。 1.1 获取变量地址 int donuts 6; double cu…

作者头像 李华
网站建设 2026/6/19 11:24:51

Dubbo 面试必问:哪种协议最推荐?

文章目录 Dubbo推荐用什么协议?引言正文1. Dubbo协议特点:适用场景:示例配置: 2. HTTP协议特点:适用场景:示例配置: 3. Hessian协议特点:适用场景:示例配置: …

作者头像 李华
网站建设 2026/6/19 14:39:53

MCP SC-400如何实现量子加密?:20年专家亲授实战配置全流程

第一章:MCP SC-400 的量子加密实现MCP SC-400 是新一代安全协处理器,专为高敏感数据环境设计,支持基于量子密钥分发(QKD)的加密机制。其核心优势在于结合了传统公钥基础设施(PKI)与抗量子计算攻…

作者头像 李华
网站建设 2026/6/20 7:27:19

高效搭建本地DNS服务:MosDNS实用部署完整指南

高效搭建本地DNS服务:MosDNS实用部署完整指南 【免费下载链接】mosdns mosdns - 一个DNS转发器,使用Go语言编写,遵循GPLv3许可。 项目地址: https://gitcode.com/gh_mirrors/mo/mosdns 你是否经常遇到网络访问缓慢、某些网站无法打开的…

作者头像 李华
网站建设 2026/6/18 3:44:32

PT助手Plus:浏览器种子下载终极指南,3步实现一键下载

PT助手Plus:浏览器种子下载终极指南,3步实现一键下载 【免费下载链接】PT-Plugin-Plus PT 助手 Plus,为 Microsoft Edge、Google Chrome、Firefox 浏览器插件(Web Extensions),主要用于辅助下载 PT 站的种子…

作者头像 李华