news 2026/6/11 19:00:53

UI-TARS-72B-DPO:突破38.1分的GUI交互新标杆

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
UI-TARS-72B-DPO:突破38.1分的GUI交互新标杆

UI-TARS-72B-DPO:突破38.1分的GUI交互新标杆

【免费下载链接】UI-TARS-72B-DPO项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-DPO

导语

字节跳动最新发布的UI-TARS-72B-DPO模型以38.1分的成绩刷新GUI(图形用户界面)交互模型性能纪录,首次实现AI系统像人类一样自主完成界面操作,标志着智能交互技术进入全新时代。

行业现状

随着大语言模型技术的快速迭代,AI与人类的交互方式正从文本对话向多模态交互演进。当前主流模型如GPT-4o、Claude 3.5等虽在视觉理解上取得突破,但在GUI交互领域仍面临三大核心挑战:界面元素精准定位困难、操作逻辑理解偏差、跨平台适应性不足。据行业研究显示,现有解决方案完成复杂GUI任务的平均成功率不足50%,严重制约了自动化办公、智能客服等场景的落地效果。

产品/模型亮点

UI-TARS-72B-DPO作为新一代原生GUI智能交互模型,通过三大创新突破重构AI界面交互能力:

首先,采用全栈式单模型架构,将感知、推理、定位和记忆四大核心能力集成于720亿参数的视觉语言模型(VLM)中,彻底摆脱传统模块化框架的流程限制。这种端到端设计使模型能像人类一样"看懂"界面并直接生成操作指令,无需人工预设规则。

其次,在多维度评估中创下历史新高。在ScreenSpot Pro基准测试中,UI-TARS-72B-DPO以38.1分的综合成绩超越GPT-4o(8.1分)和Claude Computer Use(17.1分),尤其在桌面端图标定位(15.7分)和网页文本识别(50.9分)等细分指标上实现量级突破。

更重要的是,该模型展现出强大的跨场景适应能力。在Android控制系统测试中,其任务成功率达到88.6%,能自主完成从社交软件消息发送到电商平台购物下单的全流程操作。在线环境评估显示,UI-TARS-72B-DPO在OSWorld场景中实现24.6%的任务完成率,较GPT-4o提升近5倍。

行业影响

UI-TARS-72B-DPO的问世将深刻改变三个核心领域:

在企业服务领域,该技术可大幅降低自动化流程部署成本。传统RPA(机器人流程自动化)方案需针对不同软件界面编写定制脚本,而UI-TARS支持零代码配置,使流程搭建效率提升80%以上。金融、电商等强交互行业有望率先受益,预计可减少30%的重复性人工操作。

智能设备交互方面,模型突破为物联网设备管理提供新思路。通过统一的GUI交互接口,AI系统能同时控制电脑、手机、智能家居等多终端,实现"一句话操控所有设备"的场景落地。测试数据显示,UI-TARS对未知应用的首次操作成功率达74.7%,远超行业平均水平。

在无障碍服务领域,该技术为视障人士使用数字产品提供全新可能。模型的高精准度界面识别能力(文本识别准确率94.8%)可转化为实时语音导航,帮助特殊群体独立完成复杂数字任务。

结论/前瞻

UI-TARS-72B-DPO以38.1分的标杆性成绩,不仅重新定义了GUI交互模型的技术标准,更构建了AI理解人类交互意图的全新范式。随着模型在多模态提示学习和环境动态适应能力上的持续优化,我们有理由相信,未来1-2年内,AI将逐步接管80%的标准化界面操作任务,推动人机协作进入"自然交互"新阶段。对于企业而言,及早布局基于UI-TARS的自动化解决方案,将成为提升运营效率的关键竞争优势。

【免费下载链接】UI-TARS-72B-DPO项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-DPO

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 12:28:02

解锁FFXIV TexTools UI创意潜能:2025个性化改造完全手册

解锁FFXIV TexTools UI创意潜能:2025个性化改造完全手册 【免费下载链接】FFXIV_TexTools_UI 项目地址: https://gitcode.com/gh_mirrors/ff/FFXIV_TexTools_UI 你的艾欧泽亚,由你定义。在最终幻想14的世界里,每个玩家都渴望打造独一…

作者头像 李华
网站建设 2026/6/10 14:09:44

Windows HEIC缩略图终极解决方案:告别空白图标,3分钟搞定图片预览

每次从iPhone传输照片到Windows电脑,面对一堆显示为空白图标的HEIC文件,是不是让你感到无比头疼?这种"盲盒式"的文件管理体验,让原本便捷的照片分享变成了效率障碍。今天,我将为你揭秘如何用最简单的方式彻底…

作者头像 李华
网站建设 2026/6/10 15:41:56

D3KeyHelper:专为暗黑3玩家打造的智能鼠标宏工具

你是否曾经在暗黑破坏神3的激烈战斗中因为频繁按键而手指酸痛?是否因为要同时监控多个Buff状态而分散注意力?D3KeyHelper就是为你量身定制的解决方案,这款免费开源的鼠标宏工具将彻底改变你的游戏体验。 【免费下载链接】D3keyHelper D3KeyHe…

作者头像 李华
网站建设 2026/6/12 14:06:49

云顶之弈智能自动化助手:解放双手轻松升级攻略

云顶之弈智能自动化助手:解放双手轻松升级攻略 【免费下载链接】LOL-Yun-Ding-Zhi-Yi 英雄联盟 云顶之弈 全自动挂机刷经验程序 外挂 脚本 ,下载慢可以到https://gitee.com/stringify/LOL-Yun-Ding-Zhi-Yi 项目地址: https://gitcode.com/gh_mirrors/lo/LOL-Yun-D…

作者头像 李华
网站建设 2026/6/11 22:57:43

AI转PSD神器:零基础也能掌握的矢量转换全攻略

AI转PSD神器:零基础也能掌握的矢量转换全攻略 【免费下载链接】ai-to-psd A script for prepare export of vector objects from Adobe Illustrator to Photoshop 项目地址: https://gitcode.com/gh_mirrors/ai/ai-to-psd 还在为设计软件之间的格式转换而头疼…

作者头像 李华
网站建设 2026/6/9 23:16:31

Zenodo科研数据管理平台完整指南:从入门到精通掌握数据共享

Zenodo科研数据管理平台完整指南:从入门到精通掌握数据共享 【免费下载链接】zenodo Research. Shared. 项目地址: https://gitcode.com/gh_mirrors/ze/zenodo 还在为科研数据的安全存储和有效分享而烦恼吗?Zenodo作为CERN开发的开源科研数据管理…

作者头像 李华