news 2026/6/20 6:39:42

思维链推理是一种脆弱的‘海市蜃楼’,一旦超出训练分布,它便会消失。| 直播预约

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
思维链推理是一种脆弱的‘海市蜃楼’,一旦超出训练分布,它便会消失。| 直播预约

主题

思维链只是幻象?从数据分布揭开 LLM 推理的真相

时间

2025.12.14 周日 10:00 北京时间
2025.12.13 周六 21:00 美东时间

🎙本次分享为全英文讲座!🌍

bilibili直播

内容

思维链(Chain-of-Thought, CoT)提示已被证明能够提升大型语言模型(LLM)在多种任务上的表现。在这种方法中,LLM 会在给出答案前生成类似人类的推理步骤(即 思维链推理),这常常让人感觉模型在进行深思熟虑的推理过程。然而,一些初步研究表明,思维链推理可能比表面看起来更加浅层,从而促使我们进一步探索。

在此工作中,我们从数据分布的角度研究思维链推理,并探讨思维链推理是否反映了一种从训练分布中学习到的结构化归纳偏置,使得模型能够在条件生成中复现训练中出现过的推理路径。因此,其有效性从根本上受到训练数据与测试查询之间分布差异程度的限制。带着这一视角,我们从三个维度剖析思维链推理:任务、长度与格式。为了研究每个维度,我们设计了 DataAlchemy,一个隔完全可控的训练环境,用于从零训练大型语言模型并在不同分布条件下系统性地测试它们。

研究结果表明,思维链推理是一种脆弱的“海市蜃楼”,一旦超出训练分布,它便会消失。这项工作为理解思维链推理为何以及何时成功或失败提供了更深入的认识,并强调了实现真正通用推理能力所面临的持续挑战。

  • 论文:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

  • 链接:https://arxiv.org/pdf/2508.01191

嘉宾

赵成帅,亚利桑那州立大学(ASU)二年级博士生,导师为刘欢教授。他曾在西湖大学交换学习,与夏俊教授和李子青教授合作。他的研究方向包括数据挖掘,科学智能(AI4Science),大语言模型推理和安全隐私。他的工作曾获得IEEE CogMI Best Student Paper Award,CIKM Best Demo Paper Award,他在多个会议担任评审并发表工作,包括 ICLR,ACL,EMNLP,IJCAI等。个人主页:https://chengshuaizhao0.github.io/

主持人

吴昊伦,Mila & McGill 的四年级博士生,在 Stanford 从事访问学者研究。其主要研究方向包括可信 AI / 大模型、信息检索、个性化、AI 对齐以及 AI+教育等。他曾在 Microsoft Research、Google、DeepMind 多次实习,其研究成果被应用于 MSR Alexandria 知识库构建和 Google Shopping 推荐系统。他在多个领域的顶级会议和期刊(如 NeurIPS, ICML, ICLR, EMNLP, SIGIR, WWW, CHI, CSCW, TMLR, TKDE 等)发表工作并担任评审。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。

NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/20 6:03:30

AugmentCode开发效率工具深度评测:测试自动化的革命性突破

AugmentCode开发效率工具深度评测:测试自动化的革命性突破 【免费下载链接】free-augment-code AugmentCode 无限续杯浏览器插件 项目地址: https://gitcode.com/gh_mirrors/fr/free-augment-code 在当今快节奏的软件开发环境中,开发效率工具已成…

作者头像 李华
网站建设 2026/6/19 19:35:03

Windows 11界面定制:深度解析uDWM.dll冷补丁技术

Windows 11界面定制:深度解析uDWM.dll冷补丁技术 【免费下载链接】Win11DisableRoundedCorners A simple utility that cold patches dwm (uDWM.dll) in order to disable window rounded corners in Windows 11 项目地址: https://gitcode.com/gh_mirrors/wi/Win…

作者头像 李华
网站建设 2026/6/19 13:29:48

Obsidian B站视频嵌入插件:从零开始完整使用指南

想要在Obsidian笔记中直接播放B站视频内容吗?Media Extended B站插件为你提供了完美的解决方案。这个专为Obsidian设计的插件让你无需跳转浏览器就能在笔记中嵌入和播放B站视频,极大提升学习效率和笔记体验。 【免费下载链接】mx-bili-plugin 项目地址…

作者头像 李华
网站建设 2026/6/18 12:23:34

3步搞定跨语言消息传递:RabbitMQ STOMP协议实战指南

3步搞定跨语言消息传递:RabbitMQ STOMP协议实战指南 【免费下载链接】rabbitmq-server Open source RabbitMQ: core server and tier 1 (built-in) plugins 项目地址: https://gitcode.com/gh_mirrors/ra/rabbitmq-server 还在为不同编程语言间的消息通信发愁…

作者头像 李华
网站建设 2026/6/17 14:20:41

23、多线程编程硬件知识及内存优化策略

多线程编程硬件知识及内存优化策略 在多线程编程中,硬件相关的知识对于程序的性能有着至关重要的影响。下面我们将详细探讨其中的一些关键概念。 线程基础问题及解决方法 当 CPU 0 向主内存写入一个字时,其他总线窥探器会发现并使它们自己缓存中的相应条目无效。若 CPU 1 …

作者头像 李华
网站建设 2026/6/14 6:26:08

COLMAP动态干扰终极解决方案:轻松消除运动物体重影

COLMAP动态干扰终极解决方案:轻松消除运动物体重影 【免费下载链接】colmap COLMAP - Structure-from-Motion and Multi-View Stereo 项目地址: https://gitcode.com/GitHub_Trending/co/colmap 你是不是也遇到过这样的烦恼?用COLMAP处理街景照片…

作者头像 李华