news 2026/4/23 11:34:03

LLM 推理中的数值非确定性与 RL 训推不一致的系统性解法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LLM 推理中的数值非确定性与 RL 训推不一致的系统性解法

主题

LLM 推理中的数值非确定性与 RL 训推不一致的系统性解法

文末进群~

时间

2026.1.4 11:00 北京时间

2026.1.3 22:00 美东时间

直播预约

🎙本次分享为全英文讲座!🌍

视频号

b站

Youtube:
https://youtube.com/live/4ay81dNuSR4


内容

即使将温度设置为零,LLM 的生成过程仍然不是确定性的。系统层面的配置变化(例如 batch size 和并行策略的变化)会引入非确定性,而这类变化在真实线上服务中由于连续批处理(continuous batching)而非常常见。这一问题在强化学习(RL)中更加突出,因为训练引擎与 rollout 引擎在运行时天然采用不同的 batch size、内核实现以及并行化策略。这种训练—rollout 不一致会导致性能下降,甚至训练崩溃,尤其是在混合专家模型(MoE)中表现得尤为明显。 在本次报告中,我将分析这一问题产生的原因,并从系统层面出发,通过构建确定性的 GPU 内核来探讨如何解决这一问题。

  • 论文1: Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference (NeurIPS 2025 Oral)

  • Link: https://openreview.net/pdf?id=Q3qAsZAEZw

  • 论文2: Deterministic Inference across Tensor Parallel Sizes That Eliminates Training-Inference Mismatch (Arxiv)

  • Blog Link: https://festive-clam-15f.notion.site/Enabling-Large-Scale-True-on-Policy-RL-by-Bringing-Tensor-Parallelism-to-Order-2b039f5cabfa807b9770fcbe339f0f9b

嘉宾

Zirui “Ray” Liu,明尼苏达大学计算机科学系的助理教授。研究兴趣主要集中在LLM及其应用,尤其关注long-context problem & long-term memory。同时也非常热衷于机器学习系统(比如deterministic kernels以及low-precision system design & implementation)。

网站link: https://zirui-ray-liu.github.io/

主持人

David Li 是亚利桑那州立大学(ASU)的在读博士生,导师为Huan Liu教授。他先后获得北京语言大学(BLCU)计算机科学学士学位以及加州大学圣地亚哥分校(UCSD)数据科学硕士学位。他曾先后在北京语言资源高精尖创新中心和小米AI Lab担任研究实习生。此外,他还是开源研究社区 OracleLLM 的创始人。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群即可,非诚勿扰!

NICE介绍

NICENexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。

NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:25:55

Typora官网主题美化教程打造个性化写作空间

Typora 主题美化实战:打造专属的沉浸式写作环境 在数字创作愈发普及的今天,写作早已不只是内容的堆砌,而是一种思维与审美的双重表达。一款好的编辑器,不仅要“好用”,更要“顺眼”。Typora 作为 Markdown 编辑器中的…

作者头像 李华
网站建设 2026/4/6 12:09:12

通信信号处理流水线中的BRAM使用技巧:实战分享

通信信号处理流水线中的BRAM实战技巧:从原理到性能跃升在高速通信系统设计中,我们常常面临一个看似简单却极具挑战的问题:如何让数据“刚刚好”地到达下一个处理模块?想象这样一个场景——你正在设计一款5G毫米波接收机&#xff0…

作者头像 李华
网站建设 2026/4/23 11:29:35

小鹏汽车 端到端 自动驾驶 最新进展

小鹏汽车端到端自动驾驶最新进展(2026 年 1 月) 一、核心技术突破:第二代 VLA 系统(视觉 - 语言 - 动作融合) 第二代 VLA是小鹏端到端自动驾驶的最新里程碑,于 2025 年 11 月 6 日科技日正式发布&#xff0…

作者头像 李华
网站建设 2026/4/18 1:03:48

Typora官网降价促销?其实开源社区已有平替方案

Typora官网降价促销?其实开源社区已有平替方案 在内容创作工具的赛道上,一场静悄悄的变革正在发生。当 Typora 官网打出“限时优惠”标签、悄然转向订阅制时,不少长期用户开始重新审视:我们真的需要为一个 Markdown 编辑器持续付费…

作者头像 李华
网站建设 2026/4/23 10:44:29

百度搜索不到的干货:本地运行IndexTTS2避坑指南

本地运行 IndexTTS2:从部署到避坑的完整实践指南 在AI语音合成技术逐渐渗透进内容创作、智能硬件和企业服务的今天,越来越多开发者开始关注一个问题:如何在不牺牲隐私的前提下,获得媲美专业播音员水准的语音输出?云端…

作者头像 李华