news 2026/4/23 13:56:10

Meta:LLM预填充上下文缓存策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Meta:LLM预填充上下文缓存策略

📖标题:Let’s (not) just put things in Context: Test-Time Training for Long-Context LLMs
🌐来源:arXiv, 2512.13898

🌟摘要

训练和架构策略的进展使 LLM 在上下文长度上具有数百万个标记。然而,经验证据表明,这种长上下文 LLM 可以比可以可靠地使用的文本消耗更多的文本。另一方面,已经表明,在涉及多步推理的具有挑战性的任务上,推理时间计算可用于扩展 LLM 的性能,通常是通过生成思维标记。通过对沙盒长上下文任务的受控实验,我们发现这种推理时间策略显示出快速递减的回报,并且在长上下文中失败。我们将这些失败归因于分数稀释,这是静态自注意力固有的现象。此外,我们表明当前的推理时间策略不能在一定条件下检索相关的长上下文信号。我们提出了仅查询测试时间训练 (qTTT),它通过对给定上下文的目标梯度更新,可证明克服了静态自注意力的局限性。我们发现,如何花费推理时间计算的简单转变会导致模型和长上下文基准的性能持续显着提高。qTTT 在 LongBench-v2 和 ZeroScrolls 基准的子集上平均导致 Qwen3-4B 的大量 12.6% 和 14.1% 点改进。结论是实用的:对于长上下文,少量特定于上下文的训练比当前推理时间缩放策略(如产生更多思考标记)更好地使用推理计算。

🛎️文章简介

🔸研究问题:如何有效利用推理时计算资源来改善长上下文的检索和推理能力?
🔸主要贡献:论文提出了一种新的测试时训练方法(qTTT),通过在长上下文任务中进行查询更新,显著提高了模型的性能。

📝重点思路

🔸引入查询仅测试时训练(qTTT),通过一次预填充缓存键值对(K/V),然后仅对查询投影进行轻量级梯度更新,从而减少了计算开销。
🔸利用实验分析验证了传统的推理时间计算策略在长上下文中的表现不佳,强调了qTTT的优势。
🔸通过设置受控的合成任务,深入研究了长上下文失败的原因,如“评分稀释”现象,并提出qTTT可以有效应对这一挑战。
🔸采用多种真实世界数据集(如ZeroScrolls和LongBench-v2)进行评估,覆盖多个任务和模型规模(1.7B到8B参数)。

🔎分析总结

🔸实验结果表明,qTTT在绝大多数测试场景下都能显著超越标准的推理解码和基于“思考”代币的策略,尤其是在代码理解和多文档问答等多跳推理任务中,性能提升超过20%。
🔸随着上下文长度的增加,传统方法在性能上呈现迅速下降的趋势,而qTTT则保持了较高的准确率,显示出其在长上下文处理上的有效性。
🔸在结构固定、不改变预训练和输入数据的情况下,qTTT成功提高了目标与干扰物之间的分离度,缓解了长上下文推理中的问题。
🔸qTTT方法相较于传统推理时间计算的思路具有更低的计算费用,同时提升了模型在长文档情境下的性能。

💡个人观点

论文的创新点在于高效的计算调整策略,通过单次填充来建立一个持久的上下文缓存,并进行针对性的查询调整,以优化长上下文的推理性能。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:22:44

基于Java的售卖智慧管理系统的设计与实现全方位解析:附毕设论文+源代码

1. 为什么这个毕设项目值得你 pick ? 《基于Java的售卖智慧管理系统的设计与实现》针对传统选题“烂大街”的问题,选择了一个在功能模块化设计上独具匠心、开发难度适中的题目。系统涵盖了客户管理、产品管理、订单管理等20余种核心业务模块,结合普通员…

作者头像 李华
网站建设 2026/4/23 9:20:22

MySQL 经典15问

问题1:为什么项目不能用Map或文本文件存数据,非要用数据库?刚入行的小闵用Java的Map存学生信息,服务器重启后500条数据全丢——因为内存数据不持久化;换成文本文件存储后,又要为甲方的每一个查询需求写大量…

作者头像 李华
网站建设 2026/4/23 12:23:29

介观交通流仿真软件:VISSIM (介观模式)_(12).介观模式下的交通事件管理

介观模式下的交通事件管理 在介观交通流仿真软件中,交通事件的管理是仿真过程中的一个重要环节。交通事件可以包括交通事故、交通信号灯故障、道路封闭、临时交通管制等。这些事件对交通流的影响是多方面的,可能会导致交通拥堵、延误等问题。因此&#x…

作者头像 李华
网站建设 2026/4/23 10:50:25

基于django智能推荐算法的全屋定制平台网站设计实现

背景分析家居定制行业正经历从标准化向个性化需求的转型,消费者对空间利用率、风格匹配度的要求日益提升。传统定制方案依赖人工设计,存在效率低、风格局限性强、成本高等痛点。Django框架结合智能推荐算法可构建数据驱动的解决方案,通过用户…

作者头像 李华
网站建设 2026/4/16 16:31:06

django用Python设计自主学习系统后端设计实现

Django框架在自主学习系统中的优势Django作为Python的高效Web框架,具备快速开发、安全性和可扩展性特性,适合构建复杂系统。其内置的ORM简化数据库操作,模板引擎支持动态内容渲染,而自动化管理后台可减少基础代码编写。这些特性为…

作者头像 李华
网站建设 2026/4/23 12:22:18

迅雷Android开发工程师面试指南

迅雷网络 资深android开发工程师 职位描述 Java架构设计/优化浏览器Android客户端产品研发架构设计能力Webview计算机/软件工程相关专业小说漫画阅读Kotlin 岗位职责 1、负责浏览器应用的功能开发,维护和问题修复,重点关注WebView组件的稳定性和体验提升; 2、负责浏览器应用…

作者头像 李华