主题
思维链只是幻象?从数据分布揭开 LLM 推理的真相
时间
2025.12.14 周日 10:00 北京时间
2025.12.13 周六 21:00 美东时间
🎙本次分享为全英文讲座!🌍
内容
思维链(Chain-of-Thought, CoT)提示已被证明能够提升大型语言模型(LLM)在多种任务上的表现。在这种方法中,LLM 会在给出答案前生成类似人类的推理步骤(即 思维链推理),这常常让人感觉模型在进行深思熟虑的推理过程。然而,一些初步研究表明,思维链推理可能比表面看起来更加浅层,从而促使我们进一步探索。
在此工作中,我们从数据分布的角度研究思维链推理,并探讨思维链推理是否反映了一种从训练分布中学习到的结构化归纳偏置,使得模型能够在条件生成中复现训练中出现过的推理路径。因此,其有效性从根本上受到训练数据与测试查询之间分布差异程度的限制。带着这一视角,我们从三个维度剖析思维链推理:任务、长度与格式。为了研究每个维度,我们设计了 DataAlchemy,一个隔完全可控的训练环境,用于从零训练大型语言模型并在不同分布条件下系统性地测试它们。
研究结果表明,思维链推理是一种脆弱的“海市蜃楼”,一旦超出训练分布,它便会消失。这项工作为理解思维链推理为何以及何时成功或失败提供了更深入的认识,并强调了实现真正通用推理能力所面临的持续挑战。
论文:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
链接:https://arxiv.org/pdf/2508.01191
嘉宾
赵成帅,亚利桑那州立大学(ASU)二年级博士生,导师为刘欢教授。他曾在西湖大学交换学习,与夏俊教授和李子青教授合作。他的研究方向包括数据挖掘,科学智能(AI4Science),大语言模型推理和安全隐私。他的工作曾获得IEEE CogMI Best Student Paper Award,CIKM Best Demo Paper Award,他在多个会议担任评审并发表工作,包括 ICLR,ACL,EMNLP,IJCAI等。个人主页:https://chengshuaizhao0.github.io/
主持人
吴昊伦,Mila & McGill 的四年级博士生,在 Stanford 从事访问学者研究。其主要研究方向包括可信 AI / 大模型、信息检索、个性化、AI 对齐以及 AI+教育等。他曾在 Microsoft Research、Google、DeepMind 多次实习,其研究成果被应用于 MSR Alexandria 知识库构建和 Google Shopping 推荐系统。他在多个领域的顶级会议和期刊(如 NeurIPS, ICML, ICLR, EMNLP, SIGIR, WWW, CHI, CSCW, TMLR, TKDE 等)发表工作并担任评审。
入群
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
NICE介绍
NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform