news 2026/4/22 22:24:52

22岁小哥开源Claude Mythos核心架构,改写AI Scaling法则,参数效率直接翻倍!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
22岁小哥开源Claude Mythos核心架构,改写AI Scaling法则,参数效率直接翻倍!

【导语:22岁的初创CEO Kye Gomez以第一性原理推导出Anthropic捂得严实的Claude Mythos核心架构,并将项目OpenMythos全开源,引发全网关注,这一架构带来了诸多技术突破和行业影响。】


22岁小哥扒开Claude Mythos黑箱

一个叫Kye Gomez的22岁初创CEO,没有通过泄露或内部员工带出的方式,而是以第一性原理,硬生生把Claude Mythos的核心架构从头推导了出来,还将项目OpenMythos全开源,复现帖引近100万人围观。

「循环深度Transformer」架构革新

Kye Gomez认为Claude Mythos的核心是「循环深度Transformer」(RDT)架构,同一套权重在一次前向传播里最多循环跑16次。传统大模型堆参数,显存需求大、训练成本高,而RDT不堆参数,通过循环更新隐藏状态进行迭代推理。

OpenMythos架构分三段,Prelude和Coda是标准Transformer层各跑一次,中间循环块最多循环16次,更新规则中原始输入会重新注入防止跑偏。

MoE与循环结合拓展推理广度深度

OpenMythos在循环核心的每个FFN层替换成MoE层,参考DeepSeek - MoE设计,有大量细粒度路由专家,每个token激活部分专家,少量共享专家始终激活。随着隐藏状态演化,路由器每层循环选择不同专家子集,MoE提供广度,循环提供深度。

注意力机制默认使用「多潜变量注意力」,能实现10 - 20倍的KV显存节省,还有三个额外机制保证循环稳定性。

参数效率翻倍改写AI Scaling法则

实验数据显示,770M参数的循环模型能达到1.3B标准Transformer的下游任务质量,参数效率直接翻倍。这对消费级硬件是利好,改写了AI的Scaling法则,未来最强模型可能是想得最多次而非参数最多的,但目前只是理论说法。

闭源实验室架构优势渐失

22岁的创业者用公开论文和第一性原理复现架构并开源,闭源实验室的架构优势正在消失。FT报道Dario Amodei预测中国将在12个月内复刻出Claude Mythos级别大模型,他认为目前看不到技术放缓迹象。

编辑观点:22岁小哥的开源成果意义重大,不仅革新了大模型架构,还冲击了闭源模式,虽有理论待验证,但为AI发展带来新思路和可能性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 22:24:39

从地面相机到通量塔:我的物候验证踩坑实录与避坑指南

从地面相机到通量塔:我的物候验证踩坑实录与避坑指南 凌晨三点,盯着屏幕上遥感提取的"春季物候期"与地面相机记录的绿峰日期相差整整23天,咖啡杯在手中逐渐冷却。那一刻我意识到,物候验证从来不是简单的数据比对&#x…

作者头像 李华
网站建设 2026/4/22 22:22:12

告别RTC日期混乱:用STM32CubeMX和HAL库实现可靠的时间戳方案

告别RTC日期混乱:用STM32CubeMX和HAL库实现可靠的时间戳方案 在工业控制和通信设备开发中,精确可靠的时间管理往往是系统稳定性的关键。许多开发者在使用STM32的RTC模块时都遇到过这样的困扰:设备断电重启后,日期信息丢失或错误&a…

作者头像 李华
网站建设 2026/4/22 22:20:25

基于yolov5-v11和deepsort的行人跌倒检测系统 GUI部分使用pyqt5,YOLOv5-v11 + DeepSORT + PyQt5跌倒检测识别系统

智慧巡检-基于yolov5-v11和deepsort的行人跌倒检测系统适用于大学生研究生相关项目、比赛以及界面展示本项目GUI部分使用pyqt5制作,包括数据库、多线程、自定义组件等知识,亦可作为学习深度学习和pyqt5时的练手项目。功能以及特色如下: 1.系统…

作者头像 李华
网站建设 2026/4/22 22:12:13

LabVIEW 强度图与强度图表

​LabVIEW 中强度图(Intensity Graph)与强度图表(Intensity Chart)均可接收二维数组作为输入,用于二维数据色彩可视化,二者核心差异体现在前面板运行行为上。强度图单次刷新、仅显示当前一组数据&#xff0…

作者头像 李华
网站建设 2026/4/22 22:03:12

计算机毕业设计:Python大盘行情与个股诊断预测系统 Flask框架 TensorFlow LSTM 数据分析 可视化 大数据 大模型(建议收藏)✅

博主介绍:✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久,选择我们就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与…

作者头像 李华