＜span class=“js_title_inner“＞斯坦福amp；英伟达提出新范式：推翻Scale Law，在“推理”阶段自我进化，超越人类专家＜/span＞-深圳市維司達科技有限公司

如果让你去解决一个困扰人类数十年的数学猜想，或者优化一段已经由顶尖工程师写到了极致的 GPU 内核代码，你会怎么做？

如果你只是不停地凭直觉猜测（Prompting a frozen LLM），或者把过去的经验排列组合（RAG），大概率是无功而返的。真正的突破，往往来自于你在解决这个特定问题的过程中，通过无数次失败积累了针对这个特定问题的经验，大脑里的神经元连接因此发生了微小的改变。

这就是这篇论文的核心直觉：面对全新的发现型问题（Discovery Problems），我们不应该让模型“冻结”在预训练状态，而应该允许它在测试时（Test Time）继续训练，针对当下的难题“进化”。

作者将其命名为 TTT-Discover (Test-Time Training to Discover)。这不仅是一个算法，更是一种 AI 范式的转移。

在 TTT-Discover 出现之前，我们在测试阶段想提升模型表现，通常有两把刷子：

Best-of-N：暴力采样，这就是单纯的买彩票，试得越多，中奖概率越大，但边际效应递减极快。
进化搜索（AlphaEvolve 等）：把之前的尝试作为 Prompt 喂给模型。这就像老师把错题本给学生看，学生虽然看到了错题，但脑子（权重）还是那个脑子，很难产生本质的顿悟。

TTT-Discover 与 Best-of-N 的区别

Best-of-N 的分布是静态的，而 TTT-Discover 的奖励分布随着 step 推移显著向右移动——模型在变强。

作者指出，科学发现这类问题是典型的 OOD（Out-of-Distribution）。既然是 OOD，就需要模型适应新的分布。最好的适应数据从哪来？就从模型在这个问题上的“尝试-反馈”中来。

虽然思路是“在测试时做 RL”，但直接套用 PPO 或者 GRPO 是行不通的。这里有一个非常有意思的目标函数错位问题。

传统的 RL 想要什么？它想要策略（Policy）的鲁棒性。它希望模型在各种状态下都能获得不错的平均回报。

但是“发现（Discovery）”想要什么？它不需要模型每次都考 80 分，它只需要模型在 10000 次尝试中，有一次考出 120 分（打破记录）。只要有一次成功，任务就结束了。

为了解决这个错位，TTT-Discover 设计了两个精妙的组件。

作者抛弃了最大化期望奖励的传统做法，转而使用熵目标（Entropic Objective）。

这个公式看着复杂，其实直觉非常性感：

指数加权：这一项意味着，高回报的样本权重会被指数级放大。模型会疯狂地“迷恋”那些高分路径，而几乎完全忽略平庸的尝试。
自适应的：决定了这种“迷恋”的疯狂程度。如果太大，训练初期容易崩；太小，后期这就退化成了普通 RL。作者非常聪明地通过限制 KL 散度来动态调整，让模型在探索和利用之间自动寻找平衡。

模型不仅要学，还要懂得从哪里开始学。如果每次都从头生成代码（Run from scratch），就像每次玩游戏都必须从第一关打起，效率极低。

TTT-Discover 引入了一个类似 AlphaZero 的树搜索策略——PUCT。它维护了一个“高光时刻库”（Buffer），每次生成新尝试时，会根据以下公式选择一个旧状态作为起点：

这里的关键改动在于。在 AlphaZero 里，是平均胜率；但在 TTT-Discover 里，被定义为该节点衍生出的“最大”奖励。还是那个逻辑：我们只乎最高分，不在乎平均分。

这篇论文的实验部分非常硬核，甚至让人感到一丝“暴力美学”。他们没有选择简单的文本任务，而是选择了四个具有客观真理标准的硬核领域。

这是一个经典的组合数论问题。人类在该问题上的记录保持了多年，之前的 AI（AlphaEvolve）虽然微弱刷新了记录，但给出的解是对称的。

TTT-Discover 一出手，不仅刷新了记录（），而且它发现的解是一个600 段的非对称阶梯函数。

TTT-Discover 生成的函数图像

其极其复杂的非对称结构是人类直觉很难构建的，甚至之前的 AI 也受限于对称先验而未能发现。

这是我最喜欢的一个实验。任务是为 H100 GPU 编写 Triton 代码，优化矩阵乘法等算子。这是一项连资深工程师都头疼的工作。

结果令人咋舌：

数据显示 TTT-Discover 不仅击败了人类第一名，而且在 A100/H100/B200 等多个架构上全部通杀。

更可怕的是，TTT-Discover 甚至学会了非常底层的优化技巧，比如为了减少内存带宽压力，它自动融合（Fuse）了 LayerNorm 和 Gating 操作，并巧妙地利用 TensorCore 进行 FP16 计算。这完全就像是一个资深 CUDA 工程师在做的事情。

TTT-Discover 的成功向我们揭示了一个被忽视的真理：“推理（Inference）”不应该只是“回忆（Recalling）”，而应该是“学习（Learning）”。

当我们面对真正的未知领域（Discovery）时，预训练的知识总是有限的。让模型在测试阶段，针对当下的问题进行几百步的梯度下降，其带来的收益远超单纯增加模型参数量。

但我们也必须清醒地看到局限性：

验证器（Verifier）是硬门槛：文中所有的实验（数学、代码、生物）都有一个共同点——奖励函数是连续且客观可测的（运行时间、误差、分数）。对于写作、创意或没有明确 Ground Truth 的领域，TTT-Discover 目前还无法落地。
计算成本：为了解决一个问题，TTT-Discover 需要在测试时进行微调（Fine-tuning），虽然作者使用了 LoRA 来降低开销，但相比于直接 Inference，这依然是昂贵的。这注定它目前只能用于解决那些“高价值难题”。

尽管如此，TTT-Discover 依然是近期最让人兴奋的工作之一。它打破了 Train 和 Test 的绝对界限，让 AI 终于像人类研究员一样，懂得在解决问题的过程中自我进化。