Karpathy最新手搓！复现GPT-2成本狂降600倍：仅需507元3小时训练「最好的AI学习项目」-深圳市維司達科技有限公司

现在，训练一个GPT-2级别的LLM（大语言模型），成本已经低于100美元。

Andrej Karpathy的个人项目nanochat迎来重大更新。

现在，训练一个GPT-2级别的LLM（大语言模型），成本已经低于100美元。

具体来说，在单个8XH100节点上，仅需3小时，花费约73美元。

Karpathy直言，GPT-2是他最喜欢的LLM，因为它是LLM技术栈首次以现代形式整合在一起的标志。这也成了他某种“奇怪且持久的执念”：利用过去7年的技术进步，以极低的成本将模型训练到GPT-2的能力水平。

他一直怀疑，如今要在100美元以内实现这一目标完全是可行的。

而现在的nanochat，做到了

让我们把时间拨回2019年。

当时，OpenAI为了训练GPT-2，使用了32个TPU v3芯片，耗时168小时（整整7天）。按照当时每小时8美元的TPU价格计算，总成本约为4.3万美元

那个模型在CORE评分（DCLM论文提出的一种综合指标，涵盖ARC/MMLU等22项评估）上，得分为0.256525

现如今，随着nanochat合并了一系列改进（许多源自modded-nanogpt仓库），Karpathy在单个8XH100节点上，仅用3.04小时（约73美元）就达到了更高的CORE评分

这不仅仅是快了，更是省了。

这是一次跨越7年的600倍成本降低。换算下来，训练GPT-2的成本大约每年下降2.5倍。

Karpathy认为，这个数字可能还是被低估了。因为他目前仍在定期发现更多的改进空间，手头还有一个充满想法的积压清单等待尝试。

为了达到这个效果，Karpathy列出了几项“开箱即用”且效果立竿见影的关键改进：

Flash Attention 3 kernels：速度更快，并且允许使用window_size参数来获得交替的注意力模式。

Muon 优化器：Karpathy表示自己曾尝试花了一天时间去掉它，只用AdamW，但没能成功（Muon不可或缺）

门控残差路径和跳跃连接：由可学习的标量进行门控

Value Embeddings（值嵌入）

当然，还有许多较小的优化叠加在一起产生了最终的效果。

受modded-nanogpt的启发，Karpathy还专门创建了一个“通往GPT-2时长”（time to GPT-2）的排行榜。

目前，这个首发的“Jan29”模型以3.04小时的成绩位列榜首。

Karpathy希望nanochat能成长为一个非常精简且经过调试的实验性LLM工具，用于原型设计、娱乐，当然还有学习。他对此充满期待，并欢迎大家一起来迭代。

关于优化的详细细节和复现指南，Karpathy已在GitHub上发布了详细的长文。他还放出了一张推导当前nanochat模型系列Scaling Laws（缩放定律）的图表，并称之为“令人满意的视觉糖果”

Github讨论页指路：https://github.com/karpathy/nanochat/discussions/481

SCI论文怎么降AI率？2026年英文论文降AI工具推荐 SCI投稿越来越严了，很多期刊开始要求AIGC检测报告。用GPT或DeepSeek写的英文论文，Turnitin AI检测一查，AI率80%。如果你也面临这个问题，这篇文章告诉你怎么解决。 …

李华

知网AIGC检测3.0升级后怎么降AI？2026年实测攻略来了 2025年12月28日，知网上线了AIGC检测3.0版本。很多同学的论文，在升级前能过，升级后AI率暴涨20-30个百分点。我帮几个学弟学妹改论文，发现以前管用的方法&#x…

李华

这本书由浙江大学DAILY实验室毛玉仁、高云君教授等领衔撰写，是一本聚焦于大语言模型知识传授的专业书籍。在Github上星标已经超过11K！ 不管你是想要入门学习大模型，以后从事大模型方面的工作，这本书都能够帮到你！这本书…

李华

MySQL 事务：原理、操作与隔离级别深度解析1. 事务概述2. 事务的提交与回滚操作3. 事务的隔离级别4. 事务隔离级别的配置与验证1. 事务概述事务是处理复杂数据操作的核心机制，尤其适用于操作量大、逻辑关联性强的场景。例如在企业级人员管理系统中&…

李华

最近又帮大家挖到了微软推出的一门Al Agents课程，完全free面向对AI感兴趣的同学，帮助学习者从0开始构建和理解AI Agents，以快速掌握AI代理的核心技能，了解如何将这些技术应用于实际场景。🌿课程内容：一共包…

李华

C语言数据存储：整型与浮点型内存解析（2026 视角，图文并茂版） C语言中，整型和浮点型在内存中的存储方式完全不同，这也是导致很多初学者在调试、位运算、类型转换时踩坑的核心原因。下面从内存布局、字节序…

李华