news 2026/4/23 18:37:39

Karpathy最新手搓!复现GPT-2成本狂降600倍:仅需507元3小时训练「最好的AI学习项目」

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Karpathy最新手搓!复现GPT-2成本狂降600倍:仅需507元3小时训练「最好的AI学习项目」

现在,训练一个GPT-2级别的LLM(大语言模型),成本已经低于100美元。

Andrej Karpathy的个人项目nanochat迎来重大更新。

现在,训练一个GPT-2级别的LLM(大语言模型),成本已经低于100美元。

具体来说,在单个8XH100节点上,仅需3小时,花费约73美元

Karpathy直言,GPT-2是他最喜欢的LLM,因为它是LLM技术栈首次以现代形式整合在一起的标志。这也成了他某种“奇怪且持久的执念”:利用过去7年的技术进步,以极低的成本将模型训练到GPT-2的能力水平。

他一直怀疑,如今要在100美元以内实现这一目标完全是可行的。

而现在的nanochat,做到了

7年,600倍的成本缩减

让我们把时间拨回2019年。

当时,OpenAI为了训练GPT-2,使用了32个TPU v3芯片,耗时168小时(整整7天)。按照当时每小时8美元的TPU价格计算,总成本约为4.3万美元

那个模型在CORE评分(DCLM论文提出的一种综合指标,涵盖ARC/MMLU等22项评估)上,得分为0.256525

现如今,随着nanochat合并了一系列改进(许多源自modded-nanogpt仓库),Karpathy在单个8XH100节点上,仅用3.04小时(约73美元)就达到了更高的CORE评分

这不仅仅是快了,更是省了。

这是一次跨越7年的600倍成本降低。换算下来,训练GPT-2的成本大约每年下降2.5倍。

Karpathy认为,这个数字可能还是被低估了。因为他目前仍在定期发现更多的改进空间,手头还有一个充满想法的积压清单等待尝试。

核心优化技术栈

为了达到这个效果,Karpathy列出了几项“开箱即用”且效果立竿见影的关键改进:

Flash Attention 3 kernels:速度更快,并且允许使用window_size参数来获得交替的注意力模式。

Muon 优化器:Karpathy表示自己曾尝试花了一天时间去掉它,只用AdamW,但没能成功(Muon不可或缺)

门控残差路径和跳跃连接:由可学习的标量进行门控

Value Embeddings(值嵌入)

当然,还有许多较小的优化叠加在一起产生了最终的效果。

“通往GPT-2”排行榜

受modded-nanogpt的启发,Karpathy还专门创建了一个“通往GPT-2时长”(time to GPT-2)的排行榜。

目前,这个首发的“Jan29”模型以3.04小时的成绩位列榜首

Karpathy希望nanochat能成长为一个非常精简且经过调试的实验性LLM工具,用于原型设计、娱乐,当然还有学习。他对此充满期待,并欢迎大家一起来迭代。

关于优化的详细细节和复现指南,Karpathy已在GitHub上发布了详细的长文。他还放出了一张推导当前nanochat模型系列Scaling Laws(缩放定律)的图表,并称之为“令人满意的视觉糖果”

Github讨论页指路:https://github.com/karpathy/nanochat/discussions/481

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 8:21:44

SCI论文怎么降AI率?2026年英文论文降AI工具推荐

SCI论文怎么降AI率?2026年英文论文降AI工具推荐 SCI投稿越来越严了,很多期刊开始要求AIGC检测报告。 用GPT或DeepSeek写的英文论文,Turnitin AI检测一查,AI率80%。 如果你也面临这个问题,这篇文章告诉你怎么解决。 …

作者头像 李华
网站建设 2026/4/23 8:22:22

知网AIGC检测3.0升级后怎么降AI?2026年实测攻略来了

知网AIGC检测3.0升级后怎么降AI?2026年实测攻略来了 2025年12月28日,知网上线了AIGC检测3.0版本。 很多同学的论文,在升级前能过,升级后AI率暴涨20-30个百分点。 我帮几个学弟学妹改论文,发现以前管用的方法&#x…

作者头像 李华
网站建设 2026/4/22 15:25:33

MySQL 事务:原理、操作与隔离级别深度解析

MySQL 事务:原理、操作与隔离级别深度解析1. 事务概述2. 事务的提交与回滚操作3. 事务的隔离级别4. 事务隔离级别的配置与验证1. 事务概述 事务是处理复杂数据操作的核心机制,尤其适用于操作量大、逻辑关联性强的场景。例如在企业级人员管理系统中&…

作者头像 李华
网站建设 2026/4/23 8:22:54

微软新出的AI Agents课程太顶了,通宵刷完!

最近又帮大家挖到了微软推出的一门Al Agents课程,完全free面向对AI感兴趣的同学,帮助学习者从0开始构建和理解AI Agents,以快速掌握AI代理的核心技能,了解如何将这些技术应用于实际场景。🌿课程内容:一共包…

作者头像 李华
网站建设 2026/4/23 9:52:58

C语言数据存储:整型与浮点型内存解析

C语言数据存储:整型与浮点型内存解析(2026 视角,图文并茂版) C语言中,整型和浮点型在内存中的存储方式完全不同,这也是导致很多初学者在调试、位运算、类型转换时踩坑的核心原因。 下面从内存布局、字节序…

作者头像 李华