【导语:22岁的初创CEO Kye Gomez以第一性原理推导出Anthropic捂得严实的Claude Mythos核心架构,并将项目OpenMythos全开源,引发全网关注,这一架构带来了诸多技术突破和行业影响。】
一个叫Kye Gomez的22岁初创CEO,没有通过泄露或内部员工带出的方式,而是以第一性原理,硬生生把Claude Mythos的核心架构从头推导了出来,还将项目OpenMythos全开源,复现帖引近100万人围观。
Kye Gomez认为Claude Mythos的核心是「循环深度Transformer」(RDT)架构,同一套权重在一次前向传播里最多循环跑16次。传统大模型堆参数,显存需求大、训练成本高,而RDT不堆参数,通过循环更新隐藏状态进行迭代推理。
OpenMythos架构分三段,Prelude和Coda是标准Transformer层各跑一次,中间循环块最多循环16次,更新规则中原始输入会重新注入防止跑偏。
OpenMythos在循环核心的每个FFN层替换成MoE层,参考DeepSeek - MoE设计,有大量细粒度路由专家,每个token激活部分专家,少量共享专家始终激活。随着隐藏状态演化,路由器每层循环选择不同专家子集,MoE提供广度,循环提供深度。
注意力机制默认使用「多潜变量注意力」,能实现10 - 20倍的KV显存节省,还有三个额外机制保证循环稳定性。
实验数据显示,770M参数的循环模型能达到1.3B标准Transformer的下游任务质量,参数效率直接翻倍。这对消费级硬件是利好,改写了AI的Scaling法则,未来最强模型可能是想得最多次而非参数最多的,但目前只是理论说法。
22岁的创业者用公开论文和第一性原理复现架构并开源,闭源实验室的架构优势正在消失。FT报道Dario Amodei预测中国将在12个月内复刻出Claude Mythos级别大模型,他认为目前看不到技术放缓迹象。
编辑观点:22岁小哥的开源成果意义重大,不仅革新了大模型架构,还冲击了闭源模式,虽有理论待验证,但为AI发展带来新思路和可能性。