哥德堡大学团队重新定义AI交互：让大语言模型突破语言界限-深圳市維司達科技有限公司

这项由瑞典哥德堡大学（Chalmers University of Technology）和哥德堡大学（University of Gothenburg）的岳忠琪（Zhongqi Yue）和弗雷德里克·约翰松（Fredrik D. Johansson）领导，与SAP公司王维石（Weishi Wang）、丹尼尔·达尔迈尔（Daniel Dahlmeier）以及浙江大学詹云大川（Yundaichuan Zhan）、李俊城（Juncheng Li）等学者合作完成的研究，发表于2025年10月的人工智能顶级会议论文集。该研究提出了一种全新的ExpA（Expanded Action）框架和EARL（ExpA Reinforcement Learning）算法，首次让大语言模型能够直接与外部环境交互，而不是仅仅依靠文本描述。有兴趣深入了解的读者可以通过论文编号arXiv:2510.07581v2查询完整论文。

目前的大语言模型就像一个被关在图书馆里的博学者，虽然知识渊博，但想要操作外界的工具时，只能通过写纸条的方式来表达意图。比如当它需要进行数学计算时，必须写出"请帮我计算12+34"这样的文字指令，然后等待外部程序解析这些文字，再执行相应操作。这种方式不仅效率低下，还容易出错，就像隔着一层厚厚的玻璃与世界互动。

研究团队发现了这个根本性问题：现有的大语言模型将语言推理和环境操作混合在一起，导致模型既要思考问题，又要学会如何用特定的格式表达操作指令。这就好比让一个厨师在做菜的同时，还要学会用密码来告诉助手拿哪个调料，既增加了复杂度，又降低了效率。更重要的是，这种方式需要为每种新工具编写专门的解析程序，限制了模型的灵活性和扩展能力。

哥德堡大学的研究团队提出了一个革命性的解决方案：ExpA框架。这个框架的核心思想是让AI模型拥有两套完全不同的"行动能力"。第一套是传统的语言能力，用于思考和推理，就像人类的大脑思维活动。第二套则是全新的"直接行动能力"，让模型能够像人类使用手脚一样，直接操控外部工具和环境。

ExpA框架的工作原理可以用一个生动的比喻来理解。传统的大语言模型就像一个只会写信的人，想要使用计算器时必须写信说"请帮我按1，再按+，再按2，再按等号"。而ExpA框架下的模型则像一个真正的人，既可以用大脑思考，也可以直接伸手按计算器上的按钮。当模型在语言环境中思考时，它会正常进行推理和分析。但当需要使用外部工具时，它可以发出一个"路由指令"，直接切换到工具操作模式，然后像人类一样直接操控工具。

这种设计的巧妙之处在于完全分离了思考和行动两个过程。模型在思考时专心思考，不用担心如何表达操作指令；在操作工具时专心操作，不用将注意力分散到语言表达上。这就像让厨师专心做菜，让助手专心递工具，各司其职，效率自然大大提升。

然而，拥有新的行动能力还不够，关键是如何让模型学会在合适的时候使用这些能力。就像给一个人新的工具，他需要练习才能熟练使用。研究团队为此开发了EARL算法，这是一种专门的强化学习方法，帮助模型学会何时以及如何使用新的行动能力。

EARL算法的创新之处在于使用了"反事实学习"的策略。简单来说，就是让模型不仅要学会成功的经验，还要学会"如果当时我选择了另一种方法会怎样"。这就像一个学习下棋的人，不仅要记住获胜的棋局，还要思考"如果我刚才选择了另一步棋，结果会不会更好"。通过这种方式，模型能够更全面地探索各种可能性，发现那些容易被忽视但实际很有用的操作策略。

为了验证这个框架的有效性，研究团队设计了两套完全不同类型的测试任务。第一套是Calc-Bench测试，就像给AI一个功能完整的计算器，看它能否学会正确使用。这套测试包含了从简单的算术运算到复杂的数学推理等多种挑战。第二套是排序测试，更像一个智力游戏：给AI一堆看不见具体数值的物品，它只能通过"比较"和"交换"两种操作来将它们排序。

在Calc-Bench测试中，传统方法的表现就像一个不太熟练的计算器使用者，经常出现按错键或者不知道何时该使用计算器的情况。而使用ExpA框架的模型表现得像一个经验丰富的数学家，不仅能准确使用计算器，还能根据问题的复杂程度灵活决策。在最具挑战性的Countdown任务中，ExpA框架的成功率比传统方法高出了26.3%，这相当于从勉强及格提升到了优秀水平。

更令人惊喜的是排序测试的结果。在这个看似简单但实际极其复杂的任务中，ExpA框架不仅达到了完美的准确率，还自主发现了一种高效的排序算法。这个算法的效率甚至可以与经典的计算机排序算法相媲美，展现了AI系统的创造性学习能力。研究团队将这个AI发现的算法命名为EARL*，它的运行效率非常接近理论最优值。

这种创造性体现在算法的设计策略上。EARL*采用了一种"支点比较"的策略，首先选择一个元素作为参考点，然后依次与其他元素比较，根据比较结果构建排序关系，最后通过最少的交换次数完成排序。这种策略的优雅之处在于它能够根据比较结果动态调整后续的比较计划，避免不必要的重复比较。

研究团队还深入分析了ExpA框架成功的原因。他们发现，传统方法在处理复杂任务时容易陷入"语言混乱"，即模型在思考问题的同时还要分心处理如何表达操作指令，导致两方面都做不好。而ExpA框架通过清晰的职责分离，让模型在语言推理时能够使用更多样化的"规划短语"，比如"这个结果离目标还很远"或"让我们尝试不同的组合"等，显示出更强的逻辑思维能力。

从技术实现的角度来看，ExpA框架的设计非常巧妙。当模型需要从语言环境切换到工具操作环境时，系统会自动在对话历史中添加相应的描述信息，比如"开始使用计算器"。这样既保持了对话的连贯性，又明确标记了操作的边界。同时，新的操作能力通过扩展模型的"行动词汇表"来实现，这些新词汇的初始权重设置为与其对应描述词相同，确保模型能够快速适应新的操作方式。

研究团队还特别关注了模型的泛化能力，即学会使用一种工具后能否快速适应其他类似工具。实验结果显示，ExpA框架具有良好的迁移学习能力。当模型学会使用基础计算器后，面对科学计算器或其他数学工具时，能够快速掌握新功能，而不需要从零开始重新训练。

这项研究的意义远不止于技术层面的突破。它预示着AI系统与人类协作方式的根本性变革。在不久的将来，AI助手可能不再局限于回答问题和生成文本，而是能够直接帮助我们操作各种软件工具、控制智能设备，甚至协助完成复杂的创造性任务。

从实用性角度考虑，ExpA框架为AI应用开发者提供了一个全新的工具箱。开发者不再需要为每个新工具编写复杂的文本解析程序，只需要定义工具的基本操作接口，AI就能够学会使用。这大大降低了AI应用的开发难度，也提高了系统的可靠性和扩展性。

研究团队也坦诚地讨论了当前工作的局限性。由于计算资源的限制，他们的实验主要基于较小规模的模型（最大70亿参数），ExpA框架在更大规模模型上的表现还有待进一步验证。此外，当前的测试环境相对简单，如何在更复杂、更真实的环境中应用这个框架，仍然是一个开放性问题。

另一个值得关注的研究方向是如何优化新操作能力的初始化策略。目前的方法虽然有效，但在面对完全陌生的工具时可能需要较长的学习时间。研究团队正在探索更智能的初始化方法，希望能够让AI系统更快地适应全新的工具和环境。

展望未来，ExpA框架可能会成为下一代AI系统的标准配置。我们可以想象这样的场景：AI写作助手不仅能够生成文章，还能直接操作文档编辑软件进行排版；AI数据分析师不仅能够解读数据趋势，还能直接操作分析工具生成图表；AI设计助手不仅能够提供创意建议，还能直接使用设计软件实现想法。

这种技术进步也提出了新的思考题。当AI系统拥有直接操控工具的能力时，如何确保操作的安全性和可控性？如何在提高效率的同时避免过度依赖AI？这些问题需要技术专家、伦理学家和政策制定者共同探讨解决方案。

哥德堡大学这项研究的真正价值在于它开辟了一个全新的研究方向。ExpA框架不仅仅是一个技术改进，更是对AI系统能力边界的重新定义。它告诉我们，AI的未来不仅在于理解和生成语言，更在于与物理世界和数字世界的直接交互。这种交互能力的获得，标志着AI系统向真正的通用人工智能又迈进了重要一步。

说到底，这项研究为我们描绘了一个令人兴奋的未来图景：AI不再是被动的问答工具，而是主动的协作伙伴，能够理解我们的需求，并直接帮助我们完成各种任务。虽然这个未来还需要更多的技术突破和实践验证，但ExpA框架无疑为我们指明了正确的方向。对于那些关注AI技术发展趋势的读者来说，这项研究提供了宝贵的前瞻性见解，值得持续关注其后续发展。

Q&A

Q1：ExpA框架和传统大语言模型有什么本质区别？

A：传统大语言模型只能通过文本与外部工具交互，就像只会写纸条指挥别人操作。ExpA框架让AI拥有两套能力：既能用语言思考，也能直接操控工具，就像人类既能用大脑思考也能用手操作一样。

Q2：EARL算法的反事实学习是怎么工作的？

A：EARL算法让AI不仅学习成功经验，还会思考"如果当时选择另一种方法会怎样"。这就像下棋高手不仅记住获胜棋局，还会反思其他走法的可能性，从而更全面地探索各种策略。

Q3：ExpA框架在实际应用中有哪些优势？

A：ExpA框架最大的优势是效率和准确性的双重提升。在数学计算任务中成功率提高了26.3%，在排序任务中甚至发现了接近理论最优的算法。更重要的是，它为每种新工具都不需要编写专门的解析程序。