news 2026/4/27 17:47:07

OpenMythos:Mythos开源复现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenMythos:Mythos开源复现

Anthropic 从未发布过关于 Claude Mythos 的技术论文。但这并没有阻止研究社区进行理论推演。一个名为OpenMythos的新开源项目,由Kye Gomez在 GitHub 上发布,尝试了一项雄心勃勃的工作:基于第一性原理对 Claude Mythos 架构进行理论复现,完全使用 PyTorch 构建,并以同行评审研究为基础。

该项目不是泄露的模型、微调或蒸馏。它是用代码呈现的假设——而且这个假设足够具体以至于可以被证伪,这正是它有趣的地方。

1、核心:Mythos是循环深度 Transformer

OpenMythos 提出 Claude Mythos 属于一类称为 **循环深度 Transformer(RDT)**的架构,在文献中也称为循环 Transformer。这个概念与标准 Transformer 堆栈有本质区别。

在传统 Transformer 中——GPT、LLaMA、Mistral——模型通过一系列唯一层依次传递输入,每层都有自己独立的权重。更强的能力通常意味着更多的层和更多的参数。在循环深度 Transformer 中,一组固定权重在单次前向传播中迭代应用 T 个循环步骤。相同的权重运行多次。推理深度不是存储参数数量的函数,而是推理时运行多少次迭代的函数。

把它想成不是在读书,而是在修改草稿:模型一次又一次地回到同一个计算块,每次通过都改善其内部表示。

2、架构结构

OpenMythos 将其实例化为三部分结构:**前奏 → 循环块 → 尾声**。前奏和尾声是标准 Transformer 层,各运行一次。循环块是计算核心,循环最多 T=16 次。

在每个循环步骤 t,隐藏状态使用以下规则更新:

ht+1 = A·ht + B·e + Transformer(ht, e)

这里ht是循环迭代 t 后的隐藏状态,e是来自前奏的编码输入——在每一步重新注入。重新注入是有意的:没有它,隐藏状态会在深层循环中偏离原始输入信号。学习矩阵 A 和 B 控制前一个隐藏状态和编码输入在每步中前向传递多少。

循环块内的 FFN 不是标准的前馈层。OpenMythos 用一个遵循DeepSeekMoE设计的混合专家(MoE)层替代了它:一个大型细粒度路由专家池,每个 token 只激活稀疏的 top-K 子集,外加一组始终活跃的共享专家来吸收跨域的通用模式。关键是,路由器在每个循环深度选择不同的专家子集,意味着每次迭代尽管共享相同的基础权重,但在计算上是不同的。MoE 提供领域广度;循环提供推理深度。

注意力默认使用来自 DeepSeek-V2 的多潜在注意力,它缓存压缩的低秩 KV 潜变量而非完整的键/值张量,在生产规模下产生10-20倍的 KV 内存减少。

3、在连续潜在空间中推理

该架构最重要的属性之一是推理完全发生在连续潜在空间中。循环步骤之间没有中间 token 发射——模型不会在思考中间产生文本然后重新阅读。这与思维链提示在结构上截然不同,在后者中推理被外化为 token 序列。这一点已在 Saunshi 等人(2025)和 COCONUT(2024)中被正式分析。

Saunshi 等人(2025)正式表明,RDT 中的每次循环迭代在功能上等价于思维链的一个步骤,但操作的是实值向量而非离散 token。连续潜在思想还可以同时编码多个备选下一步,在单次前向传播中实现更接近推理空间广度优先搜索的能力。

这也解释了一个具体的能力优势。在5跳推理链上训练的标准 Transformer 在推理时测试10跳链时会失败——它没有机制将深度扩展到训练时看到的范围之外。循环深度 Transformer 自然地处理这一点:运行更多推理时循环可以扩展推理链而无需任何重新训练。更难的问题获得更多计算;更简单的问题提前退出。

4、解决稳定性问题

训练循环模型历史上一直不稳定。隐藏状态ht在迭代中可能无限制增长——一种被称为残差爆炸的失败模式。OpenMythos 使用从Parcae架构(Prairie 等人,2026)借用的 **线性时不变(LTI)**注入约束来解决这个问题:A 的谱半径,记为 ρ(A),通过构造被强制小于1,保证无论学习率或梯度噪声如何都具有稳定性。

另一个极端还存在第二种失败模式:超过一定循环深度后,过度循环会降低预测质量——隐藏状态越过解决方案漂移到噪声中。这就是"过度思考"问题。**自适应计算时间(ACT)**停止通过每个位置的学习标量来解决它,动态决定何时停止循环。更难处理的位置获得更多计算;已经收敛的 token 提前停止。

最后,深度方向 LoRA 适配器在每次迭代深度引入一个小的秩-r 适配矩阵,使每个循环步骤具有略微不同的行为而不增加大量参数——弥合了纯权重共享和完全不同层之间的差距。

5、为什么参数效率很重要

Parcae 论文(Prairie 等人,2026)为效率主张提供了实验基础。在770M参数下,RDT 匹配了在相同数据上训练的1.3B标准 Transformer——大约一半的参数达到等效的下游质量。最优循环和最优 token 数都遵循跨尺度一致的幂律,建立了循环训练的首个可预测扩展定律。

这具有重要意义:推理深度随推理时计算扩展,而非存储参数数量。这重新定义了扩展辩论中的主导假设之一。相关轴可能不是训练时的参数数量,而是推理时的循环深度。

6、OpenMythos 的贡献

OpenMythos 提供四个具体的研究成果:一个完全可配置的 RDT 假设的 PyTorch 实现,包含 MoE FFN 和多潜在注意力;LTI 稳定的循环注入作为一等训练原语集成;深度方向 LoRA 适配器实现每次迭代的行为差异化;以及一个可复现的研究基线,用于研究循环 Transformer 动态和推理时推理深度。

无论 Mythos 是否真的是 RDT,OpenMythos 都为研究社区提供了具体可运行的东西——一类文献日益表明被低估的架构的实现,它可能代表了通往有能力 AI 的一条与简单训练更大模型根本不同的路径。


原文链接:OpenMythos:Mythos开源复现 - 汇智网

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 17:46:59

5步解锁VTube Studio API:虚拟主播创作完整探索指南

5步解锁VTube Studio API:虚拟主播创作完整探索指南 【免费下载链接】VTubeStudio VTube Studio API Development Page 项目地址: https://gitcode.com/gh_mirrors/vt/VTubeStudio 你是否曾想过,为什么虚拟主播的表情和动作能如此生动自然&#x…

作者头像 李华
网站建设 2026/4/27 17:46:40

别再猜污染率了!手把手教你用Pomc等标记基因精准校准SoupX的rho值

精准校准SoupX污染率:基于标记基因的生物学验证方法 单细胞RNA测序数据分析中,环境RNA污染是影响结果准确性的重要因素。SoupX作为主流去污染工具,其核心参数rho(污染率)的设定直接决定校正效果。虽然autoEstCont提供了…

作者头像 李华
网站建设 2026/4/27 17:42:32

Easy-VIBE:从单目视频到三维动作捕捉的实战指南

1. 项目概述:从姿态估计到动作捕捉的“平民化”革命如果你关注过计算机视觉或者游戏动画领域,大概率听说过“姿态估计”和“动作捕捉”这两个词。前者是从一张图片或一段视频里,把人的关节位置(比如头、肩膀、手肘、手腕&#xff…

作者头像 李华
网站建设 2026/4/27 17:38:50

免费获取11.9万英语单词发音MP3:一站式音频资源解决方案

免费获取11.9万英语单词发音MP3:一站式音频资源解决方案 【免费下载链接】English-words-pronunciation-mp3-audio-download Download the pronunciation mp3 audio for 119,376 unique English words/terms 项目地址: https://gitcode.com/gh_mirrors/en/English…

作者头像 李华