news 2026/4/23 12:19:31

IBM推出开源智能体CUGA 任务完成率超五成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
IBM推出开源智能体CUGA 任务完成率超五成

IBM研究人员发布了一款名为CUGA的开源智能体,旨在实现复杂企业工作流程的自动化,根据不同任务类型,其准确完成率约为50%。

CUGA是"可配置通用智能体"的缩写。根据其在AI平台HuggingFace上的介绍,该软件通过"多智能体编排、API集成以及在企业演示应用中的代码生成,实现智能任务自动化"。

IBM研究团队在今年7月发布的论文中写道:"我们对IBM CUGA的愿景是开发一个通用智能体,知识工作者可以对其进行调整和配置,以安全可靠的方式执行工作中的日常或复杂任务。"

然而,并非所有人都认为智能体是安全可靠的。IT咨询公司Gartner最近建议屏蔽所有智能体浏览器,此前几个月该公司还警告称,约40%的企业智能体项目将因缺乏商业价值而在2027年前被取消。

尽管如此,自动化的诱惑力依然强劲,IBM也热衷于提供帮助。蓝色巨人的研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别实现了61.7%的网页任务完成成功率和48.2%的API任务场景完成率——并指出该智能体的得分虽然对于人类员工来说可能导致被解雇,但目前代表了智能体领域的顶级水平。

值得注意的是,IBM似乎没有使用自家面向企业的WebAgentBench基准来评估CUGA。公司研究人员关于这一自主开发测试套件的论文描述了三个智能体——AgentWorkflowMemory(AWM)、WorkArena-Legacy和WebVoyager——在完成指定任务方面的评估结果。

这些智能体的平均原始完成率仅为24.4%,符合政策要求的完成率仅为15%。当存在五个或更多政策时,符合政策的平均完成率仅为7.1%。而企业通常有超过五个适用于业务工作流程的政策。

基准测试论文指出:"企业工作流程通常包含数十个并发政策,这表明现实世界的不足将更加明显,政策稳健优化,而不仅仅是原始完成率,必须成为关注的核心目标。"

在CUGA获得61.7%成功率的WebArena基准测试中,AWM仅获得35.5%的成功率。

IBM科学家今年早些时候指出了各种AI基准测试的不足之处,但至少CUGA的得分表明智能体正在改进。

CUGA采用Apache 2.0许可证发布,从聊天层开始,该层设计用于从提示中辨别用户意图。这可能是"从数字销售中获取收入最高的账户,然后将其添加到当前页面",或者是HuggingFace演示中包含的任何其他示例提示,该演示模拟了一个小型CRM系统,配备了20个预配置工具用于进行销售相关查询和API调用。

作者解释说,任务规划和控制组件分析输入到CUGA中的提示,并将目标分解为在任务账簿中跟踪的结构化子任务集。该账簿是动态的,当第一次尝试不成功时可以重新规划。

研究人员在博客文章中解释说:"子任务被委派给专门的智能体,如API智能体,它使用内部推理循环在安全沙箱中调用代码之前生成伪代码指令。系统利用超越MCP协议的工具注册表来解析和理解工具能力,实现精确编排。"

最后,系统向用户返回希望符合政策要求的响应。

IBM开发团队设计CUGA与Langflow协作,Langflow是一个用于智能体设计的低代码平台,并支持各种开放模型,如gpt-oss-120b和Llama-4-Maverick-17B-128E-Instruct-fp8。巧合的是,据报道,Llama的制造商Meta正在开发一个名为Avocado的后续模型,该模型可能不会开源。

CUGA似乎仍有一些粗糙的地方。例如,最近报告的一个错误表明,该智能体偶尔可能在退出运行循环时遇到问题。但如果您正在部署AI智能体软件并期望毫不费力地自动化多步骤业务任务,您可能需要降低期望值。

Q&A

Q1:CUGA智能体的任务完成率如何?

A:CUGA在不同基准测试中表现不同:在WebArena基准测试中实现61.7%的网页任务成功率,在AppWorld基准测试中达到48.2%的API任务场景完成率。虽然这些数字对人类员工来说可能不够理想,但在当前智能体领域已属顶级水平。

Q2:企业智能体在实际应用中面临什么挑战?

A:企业智能体面临的主要挑战是政策合规问题。研究显示,当企业存在五个或更多政策时,智能体符合政策要求的平均完成率仅为7.1%。而实际企业工作流程通常包含数十个并发政策,这使得现实应用中的挑战更加严峻。

Q3:CUGA智能体如何工作?

A:CUGA采用多层架构:首先通过聊天层识别用户意图,然后任务规划组件将目标分解为结构化子任务并记录在动态任务账簿中。子任务被委派给专门智能体处理,如API智能体会在安全沙箱中生成和执行代码,最终返回符合政策要求的响应。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 22:58:33

塑造2026年的八大智能手机趋势

智能手机在2026年表面上可能看起来很熟悉,但内部技术正在发生决定性的飞跃。AI原生处理器、新连接层和先进显示系统正在将日常设备转变为具有企业级功能的强大个人平台。这些趋势对企业和消费者同样重要,因为人们携带的手机塑造了他们访问数据、协作、管…

作者头像 李华
网站建设 2026/4/23 10:48:03

Godot资源逆向实战:3步轻松提取游戏资源包

还在为无法获取Godot游戏中的精美素材而烦恼吗?想快速掌握pck文件解析的核心技巧吗?本文将带你从零开始,通过实战案例轻松掌握Godot资源提取的完整流程。无论你是游戏开发者想要复用资源,还是游戏研究者需要分析内容,这…

作者头像 李华
网站建设 2026/4/9 22:01:16

全面封禁 Cursor!又一家大厂出手了

大家好,我是程序员鱼皮。 最近,有网友爆料称:快手的研发线发布通知,收紧了对第三方编程软件的使用权限。 不少同学发现,只要在自己办公电脑上点开 Cursor,就直接闪退,压根儿用不了。 我都能想…

作者头像 李华
网站建设 2026/4/23 1:00:48

在现有App里嵌入一个AI协作者

过去一年,如果你关注前端或移动开发领域,大概率听过一个新词:“生成式 UI”(Generative UI)。它不再只是实验室里的概念,而是正被集成进真实产品中——用户说一句话,系统不仅能理解意图&#xf…

作者头像 李华
网站建设 2026/4/1 16:50:27

入职宇树Web前端开发,30K双休有点爽

投稿: 第一轮技术面(JavaScript 核心 浏览器原理 前端框架底层) 本环节重点考察 JavaScript 语言特性、浏览器渲染机制、框架原理等深度知识,是社招筛选的核心门槛1.JavaScript 闭包的形成原理、应用场景与内存泄漏防范 2. Ev…

作者头像 李华