如果让你去解决一个困扰人类数十年的数学猜想,或者优化一段已经由顶尖工程师写到了极致的 GPU 内核代码,你会怎么做?
如果你只是不停地凭直觉猜测(Prompting a frozen LLM),或者把过去的经验排列组合(RAG),大概率是无功而返的。真正的突破,往往来自于你在解决这个特定问题的过程中,通过无数次失败积累了针对这个特定问题的经验,大脑里的神经元连接因此发生了微小的改变。
这就是这篇论文的核心直觉:面对全新的发现型问题(Discovery Problems),我们不应该让模型“冻结”在预训练状态,而应该允许它在测试时(Test Time)继续训练,针对当下的难题“进化”。
作者将其命名为 TTT-Discover (Test-Time Training to Discover)。这不仅是一个算法,更是一种 AI 范式的转移。
论文:Learning to Discover at Test Time
链接:https://www.arxiv.org/pdf/2601.16175
为什么传统的 Search 不够用了?
在 TTT-Discover 出现之前,我们在测试阶段想提升模型表现,通常有两把刷子:
Best-of-N:暴力采样,这就是单纯的买彩票,试得越多,中奖概率越大,但边际效应递减极快 。
进化搜索(AlphaEvolve 等):把之前的尝试作为 Prompt 喂给模型。这就像老师把错题本给学生看,学生虽然看到了错题,但脑子(权重)还是那个脑子,很难产生本质的顿悟 。
Best-of-N 的分布是静态的,而 TTT-Discover 的奖励分布随着 step 推移显著向右移动——模型在变强。
作者指出,科学发现这类问题是典型的 OOD(Out-of-Distribution)。既然是 OOD,就需要模型适应新的分布。最好的适应数据从哪来?就从模型在这个问题上的“尝试-反馈”中来。
为“奇迹”而设计的强化学习
虽然思路是“在测试时做 RL”,但直接套用 PPO 或者 GRPO 是行不通的。这里有一个非常有意思的目标函数错位问题。
传统的 RL 想要什么?它想要策略(Policy)的鲁棒性。它希望模型在各种状态下都能获得不错的平均回报。
但是“发现(Discovery)”想要什么?它不需要模型每次都考 80 分,它只需要模型在 10000 次尝试中,有一次考出 120 分(打破记录)。只要有一次成功,任务就结束了 。
为了解决这个错位,TTT-Discover 设计了两个精妙的组件。
A. 极端的偏好:自适应熵目标函数
作者抛弃了最大化期望奖励的传统做法,转而使用熵目标(Entropic Objective)。
这个公式看着复杂,其实直觉非常性感:
指数加权:这一项意味着,高回报的样本权重会被指数级放大。模型会疯狂地“迷恋”那些高分路径,而几乎完全忽略平庸的尝试 。
自适应的:决定了这种“迷恋”的疯狂程度。如果太大,训练初期容易崩;太小,后期这就退化成了普通 RL。作者非常聪明地通过限制 KL 散度来动态调整,让模型在探索和利用之间自动寻找平衡 。
B. 站在巨人的肩膀上:PUCT 状态复用
模型不仅要学,还要懂得从哪里开始学。如果每次都从头生成代码(Run from scratch),就像每次玩游戏都必须从第一关打起,效率极低。
TTT-Discover 引入了一个类似 AlphaZero 的树搜索策略——PUCT。它维护了一个“高光时刻库”(Buffer),每次生成新尝试时,会根据以下公式选择一个旧状态作为起点:
这里的关键改动在于。在 AlphaZero 里,是平均胜率;但在 TTT-Discover 里,被定义为该节点衍生出的“最大”奖励。还是那个逻辑:我们只乎最高分,不在乎平均分。
实验:碾压人类专家与同行
这篇论文的实验部分非常硬核,甚至让人感到一丝“暴力美学”。他们没有选择简单的文本任务,而是选择了四个具有客观真理标准的硬核领域。
数学:Erdős 最小重叠问题
这是一个经典的组合数论问题。人类在该问题上的记录保持了多年,之前的 AI(AlphaEvolve)虽然微弱刷新了记录,但给出的解是对称的。
TTT-Discover 一出手,不仅刷新了记录(),而且它发现的解是一个600 段的非对称阶梯函数。
其极其复杂的非对称结构是人类直觉很难构建的,甚至之前的 AI 也受限于对称先验而未能发现。
计算机工程:GPU Kernel 优化
这是我最喜欢的一个实验。任务是为 H100 GPU 编写 Triton 代码,优化矩阵乘法等算子。这是一项连资深工程师都头疼的工作。
结果令人咋舌:
在 TriMul(三角矩阵乘法)任务上,TTT-Discover 生成的 Kernel 在 H100 上的延迟仅为1161。
对比一下:人类专家的最好成绩是 1371。
对比同行:Best-of-N 的基线是 5390。
数据显示 TTT-Discover 不仅击败了人类第一名,而且在 A100/H100/B200 等多个架构上全部通杀。
更可怕的是,TTT-Discover 甚至学会了非常底层的优化技巧,比如为了减少内存带宽压力,它自动融合(Fuse)了 LayerNorm 和 Gating 操作,并巧妙地利用 TensorCore 进行 FP16 计算 。这完全就像是一个资深 CUDA 工程师在做的事情。
算法竞赛与生物学
在 AtCoder 算法竞赛(AHC039/AHC058)中,如果 TTT-Discover 参赛,它将直接获得第一名。
在单细胞 RNA 测序去噪任务中,它发现的算法在 MSE 指标上显著优于现有的 MAGIC 算法 。
价值总结与局限性思考
TTT-Discover 的成功向我们揭示了一个被忽视的真理:“推理(Inference)”不应该只是“回忆(Recalling)”,而应该是“学习(Learning)”。
当我们面对真正的未知领域(Discovery)时,预训练的知识总是有限的。让模型在测试阶段,针对当下的问题进行几百步的梯度下降,其带来的收益远超单纯增加模型参数量。
但我们也必须清醒地看到局限性:
验证器(Verifier)是硬门槛:文中所有的实验(数学、代码、生物)都有一个共同点——奖励函数是连续且客观可测的(运行时间、误差、分数)。对于写作、创意或没有明确 Ground Truth 的领域,TTT-Discover 目前还无法落地 。
计算成本:为了解决一个问题,TTT-Discover 需要在测试时进行微调(Fine-tuning),虽然作者使用了 LoRA 来降低开销,但相比于直接 Inference,这依然是昂贵的。这注定它目前只能用于解决那些“高价值难题”。
尽管如此,TTT-Discover 依然是近期最让人兴奋的工作之一。它打破了 Train 和 Test 的绝对界限,让 AI 终于像人类研究员一样,懂得在解决问题的过程中自我进化。