news 2026/4/23 14:06:08

<span class=“js_title_inner“>斯坦福amp;英伟达提出新范式:推翻Scale Law,在“推理”阶段自我进化,超越人类专家</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>斯坦福amp;英伟达提出新范式:推翻Scale Law,在“推理”阶段自我进化,超越人类专家</span>

如果让你去解决一个困扰人类数十年的数学猜想,或者优化一段已经由顶尖工程师写到了极致的 GPU 内核代码,你会怎么做?

如果你只是不停地凭直觉猜测(Prompting a frozen LLM),或者把过去的经验排列组合(RAG),大概率是无功而返的。真正的突破,往往来自于你在解决这个特定问题的过程中,通过无数次失败积累了针对这个特定问题的经验,大脑里的神经元连接因此发生了微小的改变。

这就是这篇论文的核心直觉:面对全新的发现型问题(Discovery Problems),我们不应该让模型“冻结”在预训练状态,而应该允许它在测试时(Test Time)继续训练,针对当下的难题“进化”。

作者将其命名为 TTT-Discover (Test-Time Training to Discover)。这不仅是一个算法,更是一种 AI 范式的转移。

  • 论文:Learning to Discover at Test Time

  • 链接:https://www.arxiv.org/pdf/2601.16175

为什么传统的 Search 不够用了?

在 TTT-Discover 出现之前,我们在测试阶段想提升模型表现,通常有两把刷子:

  1. Best-of-N:暴力采样,这就是单纯的买彩票,试得越多,中奖概率越大,但边际效应递减极快 。

  2. 进化搜索(AlphaEvolve 等):把之前的尝试作为 Prompt 喂给模型。这就像老师把错题本给学生看,学生虽然看到了错题,但脑子(权重)还是那个脑子,很难产生本质的顿悟 。

TTT-Discover 与 Best-of-N 的区别

Best-of-N 的分布是静态的,而 TTT-Discover 的奖励分布随着 step 推移显著向右移动——模型在变强。

作者指出,科学发现这类问题是典型的 OOD(Out-of-Distribution)。既然是 OOD,就需要模型适应新的分布。最好的适应数据从哪来?就从模型在这个问题上的“尝试-反馈”中来。

为“奇迹”而设计的强化学习

虽然思路是“在测试时做 RL”,但直接套用 PPO 或者 GRPO 是行不通的。这里有一个非常有意思的目标函数错位问题。

传统的 RL 想要什么?它想要策略(Policy)的鲁棒性。它希望模型在各种状态下都能获得不错的平均回报

但是“发现(Discovery)”想要什么?它不需要模型每次都考 80 分,它只需要模型在 10000 次尝试中,有一次考出 120 分(打破记录)。只要有一次成功,任务就结束了 。

为了解决这个错位,TTT-Discover 设计了两个精妙的组件。

A. 极端的偏好:自适应熵目标函数

作者抛弃了最大化期望奖励的传统做法,转而使用熵目标(Entropic Objective)

这个公式看着复杂,其实直觉非常性感:

  1. 指数加权:这一项意味着,高回报的样本权重会被指数级放大。模型会疯狂地“迷恋”那些高分路径,而几乎完全忽略平庸的尝试 。

  2. 自适应的决定了这种“迷恋”的疯狂程度。如果太大,训练初期容易崩;太小,后期这就退化成了普通 RL。作者非常聪明地通过限制 KL 散度来动态调整,让模型在探索和利用之间自动寻找平衡 。

B. 站在巨人的肩膀上:PUCT 状态复用

模型不仅要学,还要懂得从哪里开始学。如果每次都从头生成代码(Run from scratch),就像每次玩游戏都必须从第一关打起,效率极低。

TTT-Discover 引入了一个类似 AlphaZero 的树搜索策略——PUCT。它维护了一个“高光时刻库”(Buffer),每次生成新尝试时,会根据以下公式选择一个旧状态作为起点:

这里的关键改动在于。在 AlphaZero 里,是平均胜率;但在 TTT-Discover 里,被定义为该节点衍生出的“最大”奖励。还是那个逻辑:我们只乎最高分,不在乎平均分。

实验:碾压人类专家与同行

这篇论文的实验部分非常硬核,甚至让人感到一丝“暴力美学”。他们没有选择简单的文本任务,而是选择了四个具有客观真理标准的硬核领域。

数学:Erdős 最小重叠问题

这是一个经典的组合数论问题。人类在该问题上的记录保持了多年,之前的 AI(AlphaEvolve)虽然微弱刷新了记录,但给出的解是对称的。

TTT-Discover 一出手,不仅刷新了记录(),而且它发现的解是一个600 段的非对称阶梯函数

TTT-Discover 生成的函数图像

其极其复杂的非对称结构是人类直觉很难构建的,甚至之前的 AI 也受限于对称先验而未能发现。

计算机工程:GPU Kernel 优化

这是我最喜欢的一个实验。任务是为 H100 GPU 编写 Triton 代码,优化矩阵乘法等算子。这是一项连资深工程师都头疼的工作。

结果令人咋舌:

  • 在 TriMul(三角矩阵乘法)任务上,TTT-Discover 生成的 Kernel 在 H100 上的延迟仅为1161

  • 对比一下:人类专家的最好成绩是 1371

  • 对比同行:Best-of-N 的基线是 5390。

数据显示 TTT-Discover 不仅击败了人类第一名,而且在 A100/H100/B200 等多个架构上全部通杀。

更可怕的是,TTT-Discover 甚至学会了非常底层的优化技巧,比如为了减少内存带宽压力,它自动融合(Fuse)了 LayerNorm 和 Gating 操作,并巧妙地利用 TensorCore 进行 FP16 计算 。这完全就像是一个资深 CUDA 工程师在做的事情。

算法竞赛与生物学

  • 在 AtCoder 算法竞赛(AHC039/AHC058)中,如果 TTT-Discover 参赛,它将直接获得第一名

  • 在单细胞 RNA 测序去噪任务中,它发现的算法在 MSE 指标上显著优于现有的 MAGIC 算法 。

价值总结与局限性思考

TTT-Discover 的成功向我们揭示了一个被忽视的真理:“推理(Inference)”不应该只是“回忆(Recalling)”,而应该是“学习(Learning)”。

当我们面对真正的未知领域(Discovery)时,预训练的知识总是有限的。让模型在测试阶段,针对当下的问题进行几百步的梯度下降,其带来的收益远超单纯增加模型参数量。

但我们也必须清醒地看到局限性:

  1. 验证器(Verifier)是硬门槛:文中所有的实验(数学、代码、生物)都有一个共同点——奖励函数是连续且客观可测的(运行时间、误差、分数)。对于写作、创意或没有明确 Ground Truth 的领域,TTT-Discover 目前还无法落地 。

  2. 计算成本:为了解决一个问题,TTT-Discover 需要在测试时进行微调(Fine-tuning),虽然作者使用了 LoRA 来降低开销,但相比于直接 Inference,这依然是昂贵的。这注定它目前只能用于解决那些“高价值难题”。

尽管如此,TTT-Discover 依然是近期最让人兴奋的工作之一。它打破了 Train 和 Test 的绝对界限,让 AI 终于像人类研究员一样,懂得在解决问题的过程中自我进化。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:17:56

Nano-Banana小白指南:3步搞定专业级产品爆炸图

Nano-Banana小白指南:3步搞定专业级产品爆炸图 1. 为什么你需要Nano-Banana?——告别手绘爆炸图的繁琐时代 你是否经历过这样的场景:设计师在电脑前反复调整零件位置,只为让一张产品分解图看起来既专业又有逻辑;工业…

作者头像 李华
网站建设 2026/4/23 13:18:51

告别网盘下载限速困扰:直链解析技术让下载效率提升300%

告别网盘下载限速困扰:直链解析技术让下载效率提升300% 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广&…

作者头像 李华
网站建设 2026/4/18 0:40:22

Magma入门必看:常见问题与解决方案大全

Magma入门必看:常见问题与解决方案大全 1. Magma模型基础认知:它到底能做什么 Magma不是传统意义上的图文对话模型,也不是单纯的图像理解工具。它是一个面向多模态AI智能体的基础模型,核心定位是让AI具备在数字世界和物理世界中…

作者头像 李华
网站建设 2026/4/22 13:02:25

AI股票分析师新手教程:从安装到生成第一份报告

AI股票分析师新手教程:从安装到生成第一份报告 你是不是也想过,要是能有个懂金融的AI助手,随时帮你分析一只股票,那该多方便?不用翻财报、不用查新闻、不用研究K线图,输入代码就出报告——听起来像科幻&am…

作者头像 李华
网站建设 2026/4/23 12:26:09

云存储提速工具真的有效吗?5大平台实测报告

云存储提速工具真的有效吗?5大平台实测报告 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广,无需…

作者头像 李华
网站建设 2026/4/17 23:11:23

实测AI净界RMBG-1.4:复杂图片也能完美抠图,效果惊艳!

实测AI净界RMBG-1.4:复杂图片也能完美抠图,效果惊艳! 1. 这不是PS,但比PS更懂“发丝” 你有没有试过—— 一张刚拍的宠物照,毛茸茸的耳朵边缘糊成一片; 一张旅行风景照,人站在花丛前&#xff…

作者头像 李华