news 2026/4/23 7:07:15

OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI开源“Circuit‑Sparsity”模型,0.4 B 参数实现 99.9% 权重归零!

12 月 15 日,OpenAI 在官方博客上公布了最新的开源项目——Circuit‑Sparsity 模型。该模型仅拥有 0.4 B 参数,但高达 99.9% 的权重被强制置零,形成极度稀疏的 Transformer 结构。OpenAI 表示,此举旨在破解大语言模型(LLM)长期困扰业界的“黑箱”难题,为医疗、金融、法律等高风险领域的 AI 落地提供可解释性支撑。

何为 Circuit‑Sparsity?

传统的密集模型在训练过程中会让每个神经元或权重矩阵同时编码多个概念,形成所谓的“超级位置”(Superposition),导致模型决策难以追溯。OpenAI 通过 动态剪枝 + Top‑K 稀疏约束,在训练阶段仅保留绝对值最大的 0.1% 权重,并在关键层引入 AbsTopK 激活函数 与 RMSNorm 替代传统 LayerNorm,使得模型内部自然形成紧凑、可读的 ‍“电路”(Circuits)‍。

电路的可读性与规模优势

实验显示,稀疏模型在完成同一任务时所需的计算路径比密集模型小 16 倍。例如在“字符串闭合”任务中,仅用 12 个节点 就构建了完整的电路,且每个神经元的激活语义明确——有的专门检测单引号,有的充当计数器。通过 均值消融 实验验证,去除非电路节点对性能影响微乎其微,而删掉电路关键节点则会导致模型瞬间崩溃,进一步证明这些电路是真正的决策通路。

性能瓶颈与后续路线

尽管可解释性大幅提升,稀疏模型的计算效率仍是制约因素。由于稀疏矩阵难以利用 GPU 的 Tensor Cores 加速,模型推理速度比同等密集模型慢 100–1000 倍,在千亿参数级别的前沿模型上直接应用尚不可行。为此,OpenAI 提出了 ‍“桥梁网络”(Bridges)‍ 方案:在稀疏模型与已有密集模型之间插入编码‑解码映射层,实现对密集模型的可解释性编辑,同时保持其高效推理能力。

社群反响

国外技术社区对该项目评价两极。一方面,有网友称这项技术把模型“减肥到只剩骨架”,相当于打开了 AI 的黑匣子;另一部分则指出,稀疏模型的训练成本高出 100–1000 倍,仍属于“研究时代”,短期内难以取代现有的 MoE(混合专家)模型。总体来看,Circuit‑Sparsity 为 AI 可解释性提供了全新思路,也为后续从密集模型中提取稀疏电路奠定了技术基础。

OpenAI 在博客中写道:“我们的目标是逐步扩大可可靠解释的模型范围,同时打造相关工具,让未来的 AI 系统更易于分析、调试与评估。”团队计划在后续工作中 从现有密集模型中提取稀疏电路,并研发 更高效的可解释性训练技术,以期在保持性能的前提下进一步降低模型复杂度。

结语

Circuit‑Sparsity 的发布标志着大模型从“黑箱”向“可解释”迈出了重要一步。虽然当前仍面临计算效率的挑战,但其在模型结构简化、决策路径可视化方面的突破,为 AI 在高风险行业的安全落地提供了新的技术路径。随着桥梁网络等后续方案的完善,稀疏模型有望在保持可解释性的同时,逐步缩小与主流密集模型的性能差距,推动人工智能向更透明、更可靠的方向发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 22:11:56

745784678

6378687

作者头像 李华
网站建设 2026/4/15 20:57:04

【开题答辩全过程】以 高校排课系统的优化设计与实现为例,包含答辩的问题和答案

个人简介 一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等 开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。 感谢大家…

作者头像 李华
网站建设 2026/4/18 0:20:41

【Linux网络编程】TCP Socket

前言: 继上一篇完成了 UDP 协议的复习后,最近梳理了 TCP 协议的底层实现。与 UDP “即发即忘”的特性不同,TCP 作为一种面向连接、可靠的字节流协议,虽然握手和挥手的过程增加了复杂性,但它是构建稳定网络服务&#xf…

作者头像 李华
网站建设 2026/4/21 17:56:29

谷歌翻译在 Gemini 获得了重大升级,APP 翻译更实时

谷歌正在为其 Gemini 音频模型推出一次重大更新,为谷歌翻译(Google Translate)应用带来强大的实时语音到语音翻译功能。此次升级采用了改进后的 Gemini 2.5 Flash Native Audio 模型,专为处理复杂的语音交互而设计。这项全新的实时…

作者头像 李华
网站建设 2026/4/14 21:16:12

如何利用智能客服大脑提升服务效率?

在当今服务行业中,智能客服大脑正在成为提升服务效率的核心工具。它不仅支持企业实现24小时自动化服务,还能够灵活应对客户的多样化需求。通过整合大数据与自然语言处理技术,企业可以提供高质量的客户互动,减少人工成本&#xff0…

作者头像 李华