中小企业降本利器:AutoGLM-Phone自动化办公部署案例
1. 为什么手机也能当“数字员工”?——从概念到落地的真实价值
你有没有算过,一个普通行政或运营人员每天在手机上重复点击、切换App、复制粘贴、填表核对的时间有多少?保守估计,至少2小时。这些操作不难,但琐碎、高频、极易出错——而恰恰是这类任务,最适合作为AI自动化的第一落点。
AutoGLM-Phone不是又一个“能聊天的模型”,它是一个真正能“看见屏幕、理解界面、动手操作”的手机端AI智能助理。它把大模型能力下沉到终端交互层,让一部安卓手机变成可编程、可调度、可批量管理的微型自动化工作站。
对中小企业来说,这意味着什么?
不用招额外人力处理千条私信回复、百个账号关注、数十家平台信息同步;
不用采购高价RPA软件,零代码即可配置流程;
不用担心数据出内网——所有敏感操作(如输入密码、验证码)默认暂停并等待人工确认;
支持WiFi远程连接,一台电脑可同时管控5–10台测试机或业务机。
这不是未来场景,而是今天就能搭起来、明天就能跑起来的轻量级数字员工方案。接下来,我们就以真实部署视角,手把手带你把这套能力装进你的办公流。
2. 框架本质:多模态感知 + ADB执行 + 云端推理的三层协同
2.1 它到底“长”什么样?
AutoGLM-Phone 的核心架构非常清晰,只有三层,却精准覆盖了“看—想—做”全链路:
- 视觉感知层:通过ADB实时截取手机屏幕画面,送入视觉语言模型(VLM)进行OCR识别+UI元素定位+语义理解。它不仅能读出按钮文字,还能判断“这个蓝色圆角矩形大概率是‘搜索’图标”;
- 意图规划层:将用户自然语言指令(如“打开小红书搜美食”)与当前界面状态联合建模,生成可执行的动作序列——比如“点击底部导航栏第3个图标 → 等待页面加载完成 → 点击顶部搜索框 → 输入‘川菜’ → 点击软键盘搜索键”;
- 动作执行层:调用ADB命令精准模拟点击、滑动、输入、返回等操作,所有动作都带坐标校验和超时重试机制,避免因界面加载延迟导致误操作。
整个过程无需Root、不依赖App内部API,纯靠“人眼可见”的方式操作,因此兼容99%的安卓应用,包括微信、抖音、淘宝、钉钉等封闭生态App。
2.2 和传统RPA有什么不一样?
| 维度 | 传统桌面RPA(如UiPath) | AutoGLM-Phone |
|---|---|---|
| 运行环境 | Windows/macOS桌面 | 安卓真机/模拟器(7.0+) |
| 交互方式 | 基于窗口句柄、控件ID、图像匹配 | 基于屏幕截图+多模态理解,所见即所得 |
| 开发门槛 | 需学习流程图拖拽、脚本编写、元素定位调试 | 只需一条自然语言指令,模型自动拆解动作 |
| 维护成本 | App UI一改,流程就崩,需人工重录 | 模型具备泛化理解力,界面微调不影响主干逻辑 |
| 部署粒度 | 通常单机单任务 | 单台PC可远程控制多台手机,支持集群化任务分发 |
说白了:RPA是“教机器按步骤做事”,AutoGLM-Phone是“告诉机器你想达成什么结果,它自己想办法”。
3. 本地控制端部署:三步完成真机接管
别被“AI”“多模态”吓住——控制端本身极轻量,Windows/macOS均可5分钟内跑通。我们跳过理论,直接进入实操环节。
3.1 环境准备:只要四样东西
你不需要GPU,不需要服务器,甚至不需要懂Android开发。只需确认以下四点已就绪:
- 一台运行 Windows 或 macOS 的办公电脑(推荐 macOS,ADB更省心);
- Python 3.10+(验证命令:
python --version); - 一部 Android 7.0+ 的真机(建议用闲置旧机,非必须旗舰);
- ADB 工具(Android SDK Platform-Tools),官网下载地址。
小贴士:为什么不用模拟器?
虽然AutoGLM-Phone也支持Android模拟器(如Android Studio自带),但真机在触控响应、App兼容性、后台保活方面更稳定,尤其适合长期挂机运行。一台二手Redmi Note 9(4GB+64GB)足可胜任。
3.2 手机设置:三步打开“被操控权”
这是最容易卡住的环节,请严格按顺序操作:
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”提示。启用USB调试
设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关(首次开启会弹窗确认,勾选“始终允许”)。安装并启用ADB Keyboard
- 下载 ADB Keyboard APK(v1.3+);
- 手机安装后,进入 设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”;
- 这一步至关重要:它让AI能真正“打字”,而非仅靠ADB模拟按键(后者无法输入中文)。
注意:部分品牌手机(如华为、小米)还需额外开启“USB调试(安全设置)”或关闭“MIUI优化”,具体可搜索“品牌名 + ADB调试失败”。
3.3 控制端初始化:克隆、安装、验证
打开终端(macOS Terminal / Windows PowerShell),逐行执行:
# 1. 克隆官方仓库(Open-AutoGLM) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免包冲突) python -m venv .venv source .venv/bin/activate # macOS/Linux # .venv\Scripts\activate # Windows # 3. 安装依赖(含核心phone_agent包) pip install -r requirements.txt pip install -e .安装完成后,快速验证ADB是否就绪:
adb devices如果看到类似ZY223456789 device的输出,说明手机已成功连接。若显示unauthorized,请检查手机是否弹出授权对话框并点击“允许”。
4. 连接与运行:一条指令启动自动化流程
AutoGLM-Phone采用“云推理+端执行”分离架构:模型推理放在性能更强的云服务器(或本地显卡机),而手机只负责截图上传和动作执行。这种设计既保障响应速度,又降低终端资源占用。
4.1 设备连接方式选择
| 方式 | 适用场景 | 操作命令 | 稳定性 |
|---|---|---|---|
| USB直连 | 首次调试、高可靠性要求 | adb devices直接识别 | ★★★★★ |
| WiFi远程 | 多机管理、免线缆、办公桌整洁 | adb tcpip 5555→adb connect 192.168.x.x:5555 | ★★★☆☆(依赖局域网质量) |
WiFi连接小技巧:首次务必用USB线执行
adb tcpip 5555启用TCP模式,之后拔掉USB线,再用adb connect连接IP。手机和电脑必须在同一局域网。
4.2 启动AI代理:命令行最简启动法
假设你已有一台云服务器(IP:203.123.45.67),上面通过vLLM部署好了autoglm-phone-9b模型,并映射端口8800。在本地Open-AutoGLM目录下,执行:
python main.py \ --device-id ZY223456789 \ --base-url http://203.123.45.67:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"你会看到终端实时打印:
- 截图上传日志;
- 模型返回的动作规划(如:“点击搜索图标 → 输入抖音号 → 点击搜索结果第一条 → 点击关注按钮”);
- ADB执行反馈(如:“click (520, 180) OK”);
- 最终截图保存路径(用于效果复盘)。
整个过程约15–30秒,取决于网络延迟和模型响应速度。执行完毕后,你的手机已自动完成全部操作。
4.3 Python API集成:嵌入你自己的业务系统
如果你需要将自动化能力接入企业微信机器人、OA审批流或爬虫调度平台,直接调用SDK更灵活:
from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 1. 连接设备 conn = ADBConnection() conn.connect("ZY223456789") # 或 "192.168.1.100:5555" # 2. 初始化AI代理(指向你的云服务) agent = PhoneAgent( base_url="http://203.123.45.67:8800/v1", model_name="autoglm-phone-9b" ) # 3. 下达指令(支持中文,支持长文本) result = agent.run( instruction="进入美团APP,定位到‘我的订单’,筛选‘待评价’订单,对最近3单各写一句‘菜品新鲜,配送很快’并提交", device_id="ZY223456789" ) print(f"任务状态:{result.status}") print(f"执行耗时:{result.duration:.1f}秒") print(f"截图存于:{result.screenshot_path}")这段代码可直接放入Flask/FastAPI接口中,对外提供HTTP自动化服务,例如:POST /api/phone-task→{ "device": "ZY223456789", "instruction": "..." }
5. 实战效果与中小企业典型用例
光说不练假把式。我们用三个真实可复现的中小企业场景,展示AutoGLM-Phone如何“把时间还给业务”。
5.1 场景一:电商客服消息批量回复(节省2.5小时/天)
痛点:某淘宝C店日均收到120+条咨询,70%为“发货了吗?”“能改地址吗?”“有优惠券吗?”,人工回复模板化、易疲劳、易漏回。
AutoGLM-Phone方案:
- 指令:
“打开千牛工作台,进入最新未读消息,对含‘发货’字样的消息统一回复‘亲,已发出,单号:SF123456789,预计明日达’,跳过含‘投诉’的消息” - 效果:单次运行处理32条消息,平均响应时间8秒/条,准确率98.7%(2条因消息含图片未触发关键词,属合理漏判)。
优势:无需对接千牛API,不违反平台规则,纯界面操作,安全合规。
5.2 场景二:新媒体账号矩阵日常运营(节省3小时/周)
痛点:一家本地MCN管理8个抖音小号,需每日同步发布同一套短视频+文案,手动操作易错发、漏发、发布时间不一致。
AutoGLM-Phone方案:
- 指令:
“依次打开抖音APP,登录账号A,点击‘+’发布视频,选择相册中‘20240520_01.mp4’,添加文案‘夏天的第一杯杨梅冰~#本地美食 #夏日限定’,添加位置‘XX市步行街’,发布;完成后退出登录,切换账号B,重复上述流程,共操作8个账号” - 效果:8个账号全流程发布用时11分23秒,发布时间误差<3秒,文案/位置/视频零错误。
优势:支持账号切换逻辑,可预置多套指令模板,一键轮播执行。
5.3 场景三:HR入职材料自动核验(节省1.5小时/人/天)
痛点:新员工入职需提交身份证、学历证、离职证明三张图片,HR需逐张打开、放大查看、比对信息、截图存档,每人平均耗时18分钟。
AutoGLM-Phone方案:
- 指令:
“打开企业微信,进入‘入职材料群’,查找最新一条含‘身份证’的图片消息,长按保存至相册;打开相册,找到该图片,使用‘证件扫描’功能提取姓名、身份证号、出生日期;与群内文字消息中的填报信息比对,结果输出为‘一致/不一致:XXX’” - 效果:单份材料核验平均42秒,识别准确率94.2%(主要误差来自拍摄反光、边缘裁剪),结果自动发送至HR工作台。
优势:打通企业微信+相册+OCR工具链,实现跨App数据联动,远超单一App自动化能力。
6. 稳定性与风险控制:中小企业最关心的那几件事
再好的技术,不稳定=零价值。AutoGLM-Phone在设计之初就针对中小企业实际环境做了三重加固:
6.1 敏感操作熔断机制
所有涉及以下行为的操作,AI会主动暂停并等待人工确认:
- 点击含“删除”“卸载”“清除”字样的按钮;
- 输入内容包含6位以上连续数字(疑似验证码);
- 尝试访问“设置→账号与同步”等系统级页面;
- 连续3次点击无响应(判定为页面卡死)。
确认方式支持两种:
🔹 本地终端按回车键继续;
🔹 通过企业微信/钉钉接收图文确认请求,点击“同意”后远程恢复。
6.2 连接容灾设计
- ADB心跳保活:每30秒发送一次
adb get-state,断连自动重试3次; - WiFi弱网适配:截图分辨率自动降至1080×2340(兼顾清晰度与传输速度);
- 指令超时熔断:单条指令最长执行180秒,超时强制终止并返回错误快照。
6.3 日志与审计就绪
每次运行自动生成结构化日志,包含:
- 时间戳、设备ID、原始指令、动作序列、每步耗时、截图路径、最终状态;
- 所有日志默认存于
./logs/目录,支持按日期归档、按设备筛选; - 可直接对接ELK或企业SIEM系统,满足基础IT审计要求。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。