news 2026/6/20 19:00:33

05-18 · LLM 最新论文速览

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
05-18 · LLM 最新论文速览

今日候选池93篇,硬过滤 + LLM 打分后通过评估27篇,精选 Top-10,另列 17 篇速览。

关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1. TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination

评分8.6·方向cs.MA · Multiagent Systems ·arxiv2605.15207· PDF

💡 提出 TeamTR 信任域多智能体微调框架,在每次组件更新后重采样轨迹并做逐 agent 散度约束,缓解共享上下文下的 occupancy shift。

多智能体LLM后训练trust-region开源代码

摘要:该文关注多智能体 LLM 在共享上下文下顺序微调时的协调失效:更新某个 agent 会改变团队上下文分布,而后续仍用缓存 rollout 评估会不断累积偏差。作者将其形式化为 compounding occupancy shift,并证明陈旧分布评估的损失随智能体数二次增长,而中间重采样可降为线性。基于此提出 TeamTR:每次组件更新后重采样轨迹,并用 trust-region 约束各 agent 的分布偏移,给出性能提升下界。实验表明其平均优于单智能体和顺序基线 7.1%,还能减少协同退化并支持即插即用替换组件。

评分细项:rel 9.2 / nov 8.3 / prac 8.7 / author 7.0

2. Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2605.15726· PDF

💡 提出 NudgeRL,在 RLVR 中用 Strategy Nudging 生成多样推理轨迹,并以 inter/intra-context 奖励分解加蒸馏回传基座策略。

RLVR后训练推理探索

摘要:论文针对 RLVR 中“只会在已采样轨迹上变好”的探索瓶颈,提出高效的结构化探索框架 NudgeRL。其核心是 Strategy Nudging:为每次 rollout 注入轻量级策略上下文,诱导模型生成多样化推理路径,而无需昂贵的 oracle 监督。为充分利用这些探索样本,作者设计统一目标,将奖励拆分为上下文间与上下文内两部分,并通过 distillation 把发现的有效行为迁回基础策略。实验显示,NudgeRL 优于标准 GRPO,即使后者 rollout 预算扩大 8 倍也不及它,并在 5 个高难数学基准上平均超过 oracle-guided RL 基线。

评分细项:rel 9.1 / nov 8.2 / prac 8.3 / author 6.0

3. Argus: Evidence Assembly for Scalable Deep Research Agents

评分8.1·方向cs.CL · Computation and Language ·arxiv2605.16217· PDF

💡 Argus 让 Searcher 与 Navigator 协作完成 deep research:用证据图组装信息,并以强化学习训练 Navigator 的派发、校验与综合。

多智能体deep research强化学习agentic workflow

摘要:该文提出深度研究代理 Argus,将信息检索从“并行暴力搜索完整答案”改为“拼接互补证据”。系统由 Searcher 与 Navigator 协作:Searcher 采用 ReAct 式交互收集子问题证据,Navigator 维护共享证据图,判断缺失信息、调度搜索并基于完整证据图生成带来源追踪的答案。作者用强化学习训练 Navigator 的验证、派发和综合能力,而 Searcher 保持标准 ReAct 形式,因此无需重训即可支持单个或多个并行 Searcher。基于 35B-A3B MoE,Argus 在 8 个基准上单 Searcher 平均提升 5.5 分,8 个并行 Searcher 提升 12.7 分。

评分细项:rel 8.5 / nov 8.1 / prac 7.6 / author 6.5

4. RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents

评分8.0·方向cs.CL · Computation and Language ·arxiv2605.16045· PDF

💡 RecMem 将交互先存入 subconscious memory,仅在语义相似事件持续 recurrence 时触发 LLM 记忆提炼与语义补全。

Agent memory长上下文系统优化

摘要:RecMem 重新思考长时运行 LLM agent 的记忆固化时机。现有方法通常对每次交互都调用 LLM 提取记忆,token 开销很高。RecMem 先把新交互存入“潜意识”记忆层,用轻量 embedding 编码并检索;只有当语义相近的交互持续重复出现时,才调用 LLM 提取 episodic memory 和 semantic memory,实现基于 recurrence 的选择性固化。为弥补摘要化丢失的细节,系统还加入语义精炼机制恢复细粒度事实。实验表明,RecMem 在准确率超过 3 个 SOTA 记忆系统的同时,将记忆构建 token 成本最高降低 87%。

评分细项:rel 8.5 / nov 7.5 / prac 8.5 / author 6.0

5. Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation

评分8.0·方向cs.CL · Computation and Language ·arxiv2605.15913· PDF

💡 为 block attention 引入 SemanticSeg 自动分块与 block distillation,用 sink token 和 block dropout 提升长上下文泛化。

长上下文block attentionKV cache蒸馏

摘要:论文旨在推动 block attention 在长上下文中的泛化应用,以提升 RAG 等场景的 KV cache 复用。作者指出两大障碍:难以把文本切成语义自洽的块,以及现有 block fine-tuning 效率低且易伤性能。为此,先构建包含 3 万余样本、覆盖书籍、代码、网页和对话等 16 类文本的 SemanticSeg 数据集,并训练轻量分段器实现可控粒度的自动分块。随后提出 block distillation,用冻结的 full-attention 教师指导 block-attention 学生,并结合 block sink tokens、block dropout 和 token-level loss weighti…

评分细项:rel 8.6 / nov 7.9 / prac 8.2 / author 5.0

6. Contexting as Recommendation: Evolutionary Collaborative Filtering for Context Engineering

评分7.9·方向cs.CL · Computation and Language ·arxiv2605.15721· PDF

💡 把 context engineering 改写为推荐问题,提出 NCCE 用 Neural Collaborative Filtering 与 Context-CF Co-Evolution 做实例级上下文路由。

agentic workflowcontext engineering推荐路由

摘要:该文将 context engineering 从“寻找一个全局最优提示上下文”转为“为每个样本推荐最合适上下文”的推荐问题。作者提出 NCCE(Neural Collaborative Context Engineering):先构建多样化 anchor contexts,再通过 Context-CF Co-Evolution 形成协同进化闭环——轻量 NCF 模型学习样本与上下文的偏好关系,指导生成更专门的上下文变体,而新评测结果又持续反哺 NCF 对潜在偏好的理解。推理时,训练好的 NCF 作为 context router,为未见样本动态分配上下文策略。理论与实验均表明,按实例匹配最优上下文可显著提升任务效果。

评分细项:rel 8.4 / nov 8.3 / prac 7.6 / author 5.0

7. BootstrapAgent: Distilling Repository Setup into Reusable Agent Knowledge

评分7.9·方向cs.MA · Multiagent Systems ·arxiv2605.15815· PDF

💡 用多智能体把仓库启动过程蒸馏成 .bootstrap contract,结合 Docker 验证、warm repair 与 delta repair 复用环境配置知识。

多智能体代码Agent仓库启动

摘要:BootstrapAgent 聚焦代码 agent 处理中陌生仓库前最耗时的“环境启动”问题。作者将仓库 bootstrapping 视为可复用的启动知识,并提出多智能体框架,把依赖修复、排障经验等探索成果沉淀为可验证、可供后续 agent 直接使用的 .bootstrap 合同。系统通过证据抽取、结构化规划、基于 Docker 的确定性验证及 trace 驱动修复,生成覆盖环境配置、诊断检查、最小验证和修复知识的启动规范;同时引入 warm repair with clean replay 与 delta repair 机制,加速调试并避免 reward hacking。三项基准上成功率达 92.9%,较基线提升超 10%,下游 …

评分细项:rel 8.5 / nov 7.5 / prac 8.5 / author 5.0

8. ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

评分7.8·方向cs.MA · Multiagent Systems ·arxiv2605.15224· PDF

💡 提出 ICRL,用共享骨干联合训练 solver 与 critic,并以 distribution-calibration reweighting 和 role-wise GAE 内化自我批评。

RL后训练自我批评

摘要:论文关注如何让 LLM 真正“内化”自我批评,而不是一旦移除 critique 就再次出错。作者提出 ICRL,通过共享 backbone 联合训练 solver 与 critic:critic 的奖励取决于其反馈能否提升 solver 后续的无辅助表现,从而鼓励可执行、可迁移的批评。为缓解 critique 条件下与无 critique 条件下的分布偏移,ICRL 设计 distribution-calibration re-weighting ratio,只转移与 solver 自身提示分布兼容的改进;同时用 role-wise group advantage estimation 稳定双角色联合优化。基于 Qwen3-4B/8…

评分细项:rel 8.5 / nov 8.0 / prac 7.5 / author 5.0

9. PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control

评分8.1·方向cs.AI · Artificial Intelligence ·arxiv2605.15963· PDF

💡 面向点级几何 GUI 控制,PAGER 结合 pixel-grounded SFT、precision-aligned RL 与依赖拓扑规划执行。

GUI Agent后训练强化学习SFT

摘要:本文关注精度敏感型 GUI 任务,尤其是几何作图场景:与常见“区域容错”点击不同,这类任务要求在连续画布上进行点级精确操作,微小坐标误差就可能因几何依赖关系引发连锁拓扑错误。为此,作者提出 PAGE Bench,包含 4,906 道题和 22.4 万余条带过程监督的像素级 GUI 动作;同时提出拓扑感知智能体 PAGER,将作图分解为依赖结构规划与像素级执行,并结合 pixel-grounded 监督微调和 precision-aligned 强化学习。实验表明,现有多模态模型虽可达到 88% 以上动作类型准确率,但任务成功率不足 6%;PAGER 将成功率提升至最强基线的 4.1 倍。

评分细项:rel 8.6 / nov 7.7 / prac 8.3 / author 6.5

10. Look Before You Leap: Autonomous Exploration for LLM Agents

评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.16143· PDF

💡 提出 Explore-then-Act,用任务 rollout 与探索 rollout 交替训练,并以 Exploration Checkpoint Coverage 约束 agent 先探测后执行。

Agent强化学习探索Agentic Workflow

摘要:论文指出,LLM 智能体在陌生环境中常因过早利用既有知识而失败,缺乏系统性的自主探索能力。作者据此提出可验证指标 Exploration Checkpoint Coverage,用于衡量智能体对关键状态、物体及可供性(affordance)的发现广度。评测发现,标准面向任务的强化学习会导致行为狭窄且重复,限制后续表现。为解决这一问题,论文设计交替训练策略,将任务执行 rollout 与探索 rollout 结合,并分别用对应的可验证奖励优化;进一步提出 Explore-then-Act 范式,先在预算内收集环境信息,再执行任务。结果表明,显式学习探索是构建可泛化、面向真实世界智能体的关键。

评分细项:rel 8.2 / nov 7.5 / prac 7.6 / author 5.0


📚 速览 · 其他通过评估的工作(17 篇)

一句话扫读,按评分从高到低;点击标题跳转 arxiv。

  1. cs.CL7.6DimMem: Dimensional Structuring for Efficient Long-Term Agent Memory· 💡 提出 DimMem 维度化长期记忆,把记忆拆成 time、location、reason 等 typed fields,支持 agent 检索与选择性召回。

  2. cs.MA7.5Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems· 💡 提出 Nexa:先并行生成多 agent 响应,再用轻量 transformer 预测稀疏 DAG 通信图,执行一次顺序消息传播。

  3. cs.AI7.8ScreenSearch: Uncertainty-Aware OS Exploration· 💡 针对桌面 GUI agent 部分可观测问题,结合结构化界面检索与 ambiguity-aware PUCT 图 bandit 做 OS 探索。

  4. cs.CV7.7VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation· 💡 VideoSeeker 将原生 tool invocation 内化到 LVLM,结合冷启动 SFT、结果监督和基于规则的 RL,完成实例级视频检索与定位。

  5. cs.CV7.9Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization· 💡 提出 Flash-GRPO 单步策略优化,用 iso-temporal grouping 与 temporal gradient rectification 降低视频扩散对齐训练开销。

  6. cs.MA7.2paper.json: A Coordination Convention for LLM-Agent-Actionable Papers· 💡 提出供 LLM agent 读取的 paper.json 规范,加入 claim ID、does-not-claim 列表与复现实验命令 JSON 元数据。

  7. cs.CV7.5Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation· 💡 提出 Echo-Forcing 场景记忆框架,用分层时序记忆、Scene Recall Frames 和差异感知衰减支持交互式长视频生成。

  8. cs.MA6.8SMCEvolve: Principled Scientific Discovery via Sequential Monte Carlo Evolution· 💡 把 LLM 驱动程序演化重写为 Sequential Monte Carlo 采样,结合自适应重采样、混合变异与自动收敛控制减少 LLM 调用。

  9. cs.AI7.1PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI· 💡 PRISM 将提示词维护做成闭环系统:自动生成测试用例、模拟多轮对话、用 LLM-as-judge 判错并迭代修复 prompt。

  10. cs.AI6.6FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast· 💡 提出 FORGE,用 Reflexion 内循环加 population broadcast 外循环进化提示记忆,无需权重更新提升分层 ReAct 决策。

  11. cs.MA6.4Multi-Agent Cooperative Transportation: Optimal and Efficient Task Allocation and Path Finding· 💡 提出 CT-TAPF 与 CT-TCBS,把团队组建、任务分配和无碰撞路径规划统一求解多机器人协同搬运。

  12. cs.CV6.8From Failure to Feedback: Group Revision Unlocks Hard Cases in Object-Level Grounding· 💡 在 VLM grounding 的 GRPO 中加入 group revision 与 improvement shaping,把失败初答转成可学习的优势信号。

  13. cs.MA6.2Estimated Dynamic Equilibrium Model: Supply and Demand as a Sample Path of a Stochastic Process· 💡 提出 EDEM 代理市场模型,把供需视为随机过程样本路径,并用顺序抽样上尾报价解释价格泡沫漂移。

  14. q-fin.TR6.7TradeMech: A Method to Multilaterally Net Trades Without Altering Counterparty Exposure· 💡 TradeMech 把双边合约网络重写为链与环上的多方合约,在不改变对手方暴露下实现可指定资产的最大多边净额。

  15. cs.MA6.1From Gridworlds to Warehouses: Adapting Lightweight One-shot Multi-Agent Pathfinding for AGVs· 💡 将 MAPF 扩展为面向仓储 AGV 的 MAWPF,显式建模旋转代价、加减速与跟驰碰撞并适配 PIBT、LNS2 等算法。

  16. cs.MA6.0Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback· 💡 在网络化多智能体 RLHF 中用 κ-hop 截断轨迹偏好反馈,结合分布式零阶策略梯度估计各代理局部更新。

  17. cs.CV6.3Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models· 💡 提出 ML-FOP-SOAP 二阶优化器,用 Fisher-Orthogonal Projection 与分层 folding 缓解多模态梯度冲突,支持 8192 大批训练。


数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 14:57:43

LED恒流驱动芯片AP5103:从原理到实战的深度解析

1. 项目概述:从“亮起来”到“稳下来”的进化在电子设计领域,点亮一个LED灯,大概是每个工程师的“Hello World”。但如果你想让这个灯在电池电压波动时亮度不变,在环境温度变化时颜色稳定,甚至希望它能在不同批次、不同…

作者头像 李华
网站建设 2026/5/20 14:57:36

AMD芯片代工策略分析:三星能否成为台积电的可靠备选?

1. 项目概述:一场关乎未来的制造抉择 最近在半导体圈子里,一个话题的热度持续攀升:AMD的下一代重量级芯片,比如面向数据中心和高性能计算的CPU与GPU核心,是否会将其部分制造订单交给三星代工?这绝不是一个简…

作者头像 李华
网站建设 2026/5/20 14:57:20

Claude Code 上下文喂养的 4 种分层策略:从文件级到架构级的理解跃迁

1. 文件级喂养是最危险的起点——但90%的人从这里开始就错了 我见过太多团队在第一天接入 Claude Code 后,立刻把整个 src/ 目录拖进对话框,敲下“帮我重构 UserService.java”。三分钟后,它返回了 87 行新代码——其中 42 行调用了根本不存在的 AuthContextProvider,19 行…

作者头像 李华
网站建设 2026/5/20 14:57:10

自主全向球形机器人:从运动控制到越障跳跃的工程实践

1. 项目概述:当仓鼠球遇上机器人,一场关于“自由”的探索几年前,我在一个创客展上看到一个有趣的玩意儿:一个透明的塑料球,里面装着一只仓鼠,小家伙在里面跑动,就能带着球四处滚动。这个场景让我…

作者头像 李华
网站建设 2026/5/20 14:57:09

半实物仿真中文件读取技术详解:从原理到实战优化策略

1. 项目概述:从“纸上谈兵”到“虚实结合”的工程革命 如果你在工业自动化、航空航天、汽车电子或者机器人研发领域工作,那么“半实物仿真”这个词你一定不陌生,甚至可能每天都在和它打交道。但如果你问一个刚入行的工程师“什么是半实物仿真…

作者头像 李华