news 2026/4/23 15:56:39

Step-GUI 技术报告解读

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Step-GUI 技术报告解读

模型训练、标准化接口、真实场景评估

1、数据生成:如何高效、低成本地获取可靠训练数据
2、部署协议:如何安全、标准地部署成为新问题;敏感数据(如屏幕截图)最好能留在本地设备处理。
3、场景评测:如何科学评估一个GUI智能体是否真的“好用”?

数据生成部分的内容

1、校准步骤奖励系统
【较低的成本将模型自己运行时产生的“轨迹”,转化为高质量的训练数据】
系统不纠结于模型生成的每一步操作是否完美,而是聚焦于最终任务是否被成功完成。
这个最终结果(成功/失败)的判断,可以通过自动化验证脚本或少量人工审核来高精度、低成本地完成。

问题:最终结果的判断具体是怎么做的?

(1)轨迹级验证
成功的轨迹 => 思考模型 => 七类训练数据(进度跟踪、状态总结、效果预测、自我反思、状态验证、意图执行、动作预测)
失败的轨迹 => 系统 => 知识性数据(如前六类)

思考模型和系统 分别是怎么做的?

(2)训练
基模式Qwen3-VL,三阶段训练
第一步,混合了通用的多模态数据(保持知识储备)和初步的智能体导向数据
第二步,在GUI环境中尝试执行任务,失败任务的针对性补强;辅以高质量的真实操作轨迹数据
第三步,GRPO,复合奖励函数(最终成功,点击精准,操作类型和参数正确,任务完成的流畅度和合理性);半在线探索(失败的尝试 => 提示中注入正确操作作引导)

部署协议部分的内容

高级MCP:云端的主力大模型委派给 端侧的GUI专家模型 做的 明确且常见的GUI任务
高隐私模式:截图和设备信息由 端侧的GUI专家模型分析, 只向云端主力大模型发送 语义摘要

场景评测部分的内容

推出 AndroidDaily,聚焦 出行、购物、社交、娱乐、本地服务
多维分析:
(1)任务类型:筛选、查询、分析
(2)复杂度:原子、组合、条件循环
(3)指令模糊度

4B的开源版本,在复杂任务和指令遵循任务上实测效果不如AutoGLM

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:54:55

如何在Windows上快速部署Poppler:PDF处理终极解决方案

如何在Windows上快速部署Poppler:PDF处理终极解决方案 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows Poppler for Windows是一款专为W…

作者头像 李华
网站建设 2026/4/23 15:30:34

5分钟快速上手Poppler:Windows平台PDF处理终极指南

5分钟快速上手Poppler:Windows平台PDF处理终极指南 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为PDF文档的文本提取、格式转换…

作者头像 李华
网站建设 2026/4/22 21:49:47

域名型DV SSL证书

域名验证 (DV) SSL证书是通过证明您对特定域名的控制权,使用电子邮件或DNS记录等自动化检查,可以最快、最便宜地加密网站流量 (HTTPS)。它非常适合需要基本安全保障的博客/小型网站,但不会像OV/EV证书那样验证企业身份。它会https://在浏览器…

作者头像 李华
网站建设 2026/4/23 10:10:17

如何在 Azure 数据工厂中并行化复制活动

原文:towardsdatascience.com/how-to-parallelize-copy-activities-in-azure-data-factory-5d21df7b8562?sourcecollection_archive---------10-----------------------#2024-10-10 优化企业数据湖的数据传输 https://rebremer.medium.com/?sourcepost_page---by…

作者头像 李华
网站建设 2026/4/23 10:10:04

从零实现Vivado固化程序烧写所需的硬件搭建

手把手教你搭建可靠的FPGA固化烧写硬件平台:从电源到Flash的实战细节你有没有遇到过这样的情况?在Vivado里辛辛苦苦设计完逻辑,生成比特流,用JTAG下载一切正常——灯也亮了,信号也对了。可一旦拔掉电脑、重新上电&…

作者头像 李华
网站建设 2026/4/23 10:14:12

PaddlePaddle镜像如何实现模型回滚机制?

PaddlePaddle镜像如何实现模型回滚机制? 在AI系统频繁迭代的今天,一个新上线的OCR服务突然开始返回大量错误识别结果——这并不是虚构场景,而是许多企业在部署深度学习模型时真实遭遇过的噩梦。更糟糕的是,当运维团队紧急介入&…

作者头像 李华