想让AI接管手机?Open-AutoGLM最全使用手册
1. 简介
Open-AutoGLM 是由智谱AI(ZhipuAI)开源的一款面向手机端的智能助理框架,基于 AutoGLM 构建,专为实现自然语言驱动的 Android 设备自动化操作而设计。该项目采用 Apache-2.0 开源协议,支持本地部署、商业使用,并强调用户数据隐私保护。
该框架的核心能力在于将视觉语言模型与ADB(Android Debug Bridge)控制技术深度融合,构建出一个具备“看懂屏幕”和“自动操作”双重能力的 AI Agent。用户只需输入一句自然语言指令,如“打开小红书搜索美食并点赞前三条内容”,系统即可自动解析意图、识别当前界面元素、规划操作路径,并通过 ADB 执行点击、滑动、输入等动作,完成全流程自动化。
1.1 技术架构概览
Open-AutoGLM 的工作流程遵循典型的“感知-决策-执行”闭环:
- 截图获取:通过 ADB 实时截取手机屏幕。
- 多模态理解:将截图与用户指令一同输入视觉语言模型(VLM),模型输出对当前界面的理解及下一步操作建议。
- 动作规划:解析模型输出,生成标准化的操作命令(如 tap、swipe、input)。
- 执行反馈:通过 ADB 在设备上执行操作,更新界面后再次截图,进入下一轮循环。
- 终止判断:当任务完成或达到最大步数时结束流程。
这一机制使得 AI 能够像人类一样“边看边操作”,适应复杂多变的应用界面。
2. 核心功能详解
2.1 多模态屏幕理解能力
传统自动化工具依赖控件ID或坐标定位,难以应对动态界面。Open-AutoGLM 使用视觉语言模型直接分析屏幕图像,结合上下文语义理解界面元素的功能。
例如,在微信聊天列表中,模型不仅能识别出“文件传输助手”的图标和文字标签,还能理解其作为“常用联系人”的角色,从而准确选择目标进行交互。
技术优势:无需预先知道应用内部结构,适用于任何第三方App,包括未开放API的服务。
2.2 自然语言任务解析
系统支持复杂的复合指令解析。例如:
“打开抖音,搜索用户名为 dycwo11nt61d 的博主,进入主页后关注他,并转发最新视频到朋友圈。”AI会自动拆解为以下子任务: - 启动抖音 App - 定位搜索框并输入用户名 - 点击搜索结果中的目标账号 - 查找“关注”按钮并点击 - 进入最新视频页,触发分享菜单 - 选择“分享到朋友圈”
整个过程无需人工干预,体现了强大的语义理解和流程编排能力。
2.3 跨应用协同操作
得益于对全局状态的持续感知,Open-AutoGLM 支持跨应用的任务流转。典型场景包括: - 从浏览器复制信息 → 粘贴至微信发送 - 在美团下单 → 自动截图订单详情 → 发送给家人 - 浏览新闻App → 提取标题 → 在微博发布摘要
这种能力打破了单个App的边界,真正实现了“以用户为中心”的服务串联。
2.4 安全与权限管理机制
为防止误操作带来风险,系统内置了敏感行为拦截策略: -常规操作(如打开App、浏览内容):AI可自主执行 -高危操作(如支付、删除账户、授权登录):需弹窗提示用户确认 -验证码场景:检测到验证码输入框时暂停自动化,允许人工接管
所有操作均在本地完成,不上传截图或指令至云端(除非使用远程模型服务),保障用户隐私安全。
2.5 灵活的部署方式
Open-AutoGLM 支持多种运行模式,满足不同硬件条件和使用需求:
| 部署方式 | 特点说明 |
|---|---|
| 本地GPU部署 | 使用 vLLM 或 SGLang 在本地运行模型,延迟低、隐私性强,适合高性能PC |
| 云端API调用 | 接入智谱BigModel、Hugging Face等平台API,节省本地资源 |
| 远程WiFi调试 | 通过无线ADB连接设备,实现远程控制与开发测试 |
3. 环境准备与安装配置
3.1 系统与硬件要求
控制端(本地电脑)
- 操作系统:Windows 10/11、macOS 10.15+、Linux(Ubuntu 18.04+)
- Python版本:3.9 或以上(推荐 3.10+)
- 内存:至少8GB RAM,建议16GB以上
- 显卡:NVIDIA GPU(RTX 3090及以上)可显著提升推理速度;CPU模式可用但响应较慢
- 存储空间:预留至少200MB用于代码与缓存
安卓设备
- 系统版本:Android 7.0 及以上
- 开发者选项:需开启“USB调试”
- 网络连接:支持USB线缆或同一局域网下的WiFi连接
- 输入法:安装 ADB Keyboard,用于文本输入自动化
3.2 ADB 工具配置
ADB 是连接和控制安卓设备的核心工具,需提前安装并配置环境变量。
Windows 配置步骤
- 下载 Android SDK Platform Tools
- 解压到本地目录(如
C:\platform-tools) - 添加路径至系统环境变量:
Win + R→ 输入sysdm.cpl- “高级” → “环境变量” → 在“系统变量”中编辑
Path - 新增条目:
C:\platform-tools - 验证安装:
adb version # 应输出类似:Android Debug Bridge version 1.0.41macOS 配置方法
# 假设 platform-tools 解压在 ~/Downloads/platform-tools export PATH=${PATH}:~/Downloads/platform-tools # 可将此行加入 ~/.zshrc 或 ~/.bash_profile 实现永久生效3.3 手机端设置
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。启用USB调试
返回设置主界面 → 开发者选项 → 开启“USB调试”。安装 ADB Keyboard
- 下载 APK 文件:ADB Keyboard GitHub Release
- 安装后进入“语言与输入法”设置
- 将默认输入法切换为ADB Keyboard
注意:部分品牌手机(如小米、华为)可能需要额外授权“USB安装”或关闭“MIUI优化”。
4. 部署与启动 Open-AutoGLM
4.1 克隆项目与安装依赖
# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # Linux/macOS # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .4.2 启动模型服务
若使用本地GPU部署,需先启动模型推理服务。假设已安装vLLM:
python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 4096 \ --gpu-memory-utilization 0.9提示:首次运行会自动下载模型权重(约5GB),请确保网络畅通。
4.3 连接安卓设备
USB 连接方式
- 使用数据线连接手机与电脑
- 手机弹出“允许USB调试?”对话框时点击“允许”
- 执行命令验证连接:
adb devices # 输出应包含设备序列号和 "device" 状态WiFi 无线连接方式
适用于远程调试或摆脱线缆束缚:
# 第一步:通过USB连接启用TCP/IP模式 adb tcpip 5555 # 第二步:断开USB,使用IP连接 adb connect 192.168.x.x:5555 # 替换 x.x 为手机实际IP地址(可在WiFi设置中查看) # 验证连接 adb devices4.4 启动 AI 代理执行任务
命令行方式运行
python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信给文件传输助手发消息:测试成功"参数说明: ---device-id:来自adb devices的设备ID ---base-url:模型服务地址,本地为http://localhost:8000/v1---model:模型名称,固定为autoglm-phone-9b- 最后字符串:自然语言指令
Python API 调用示例
from phone_agent.adb import ADBConnection from openautoglm import PhoneAgent # 初始化连接 conn = ADBConnection() conn.connect("192.168.1.100:5555") # 创建AI代理 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://localhost:8000/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("打开小红书搜索‘秋季穿搭’") print(result)交互式调试模式
python main.py --interactive \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b"进入交互模式后,可连续下达多条指令,便于调试复杂任务流。
5. 常见问题与排查指南
5.1 设备连接失败
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices无输出 | 驱动未安装 | Windows 用户建议安装 Google USB Driver |
| 显示 unauthorized | 未授权调试 | 断开重连,手机端确认“允许USB调试” |
| 连接频繁断开 | WiFi不稳定 | 改用USB连接,或检查路由器信号强度 |
5.2 模型响应异常
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| 返回乱码或空响应 | 模型加载不完整 | 检查vLLM启动日志,确认max-model-len至少为 4096 |
| 推理极慢(CPU模式) | 缺少GPU加速 | 升级至GPU服务器,或改用云端API |
| 404错误 | base-url 错误 | 确保 URL 包含/v1路径 |
5.3 输入无法正常发送
- 问题:文本输入未出现在输入框
- 原因:未启用 ADB Keyboard 或焦点未正确获取
- 解决:
- 确认 ADB Keyboard 已设为默认输入法
- 在任务开始前手动点击输入框获取焦点
- 检查是否被其他输入法抢占(如搜狗、百度输入法)
6. 应用场景与实践案例
6.1 社交媒体自动化运营
场景描述:自媒体创作者需每日在抖音、小红书、微博发布内容并互动。
解决方案:
“打开小红书,发布一张图片,标题为‘今日OOTD’,添加话题#穿搭分享,然后切换到抖音,上传同一视频并@三个好友。”AI 自动完成: - 图片选择与上传 - 文案填写与话题添加 - 多平台切换与发布
效果:单日内容发布时间从1小时缩短至5分钟,发布及时性大幅提升。
6.2 电商抢购与比价
场景描述:用户希望在商品开售瞬间抢购限量款产品。
解决方案:
“监控京东页面 https://item.jd.com/123456.html,一旦显示‘立即购买’按钮就点击并提交订单。”AI 持续监听页面变化,在毫秒级时间内完成点击操作,远超人工反应速度。
优势:避免错过秒杀机会,尤其适用于高价电子产品、球鞋、演唱会票等稀缺资源。
6.3 办公自动化辅助
场景描述:员工每天需将日报录入企业微信,并发送给主管。
指令示例:
“打开Excel,读取A1到A10的数据,汇总成一句话,然后在企业微信中发送给张经理。”AI 执行流程: - 截图读取Excel内容(需保持可见) - 提取关键数据生成摘要 - 打开企业微信,搜索联系人,发送消息
价值:减少重复劳动,降低人为录入错误率。
6.4 老年人数字生活助手
场景描述:子女远程帮助父母完成挂号、缴费、视频通话等操作。
实现方式: - 子女通过家庭群聊发送语音:“帮妈妈预约明天上午9点的眼科号” - AI 自动打开医院App,选择科室、医生、时间段并完成预约
社会意义:降低老年人使用智能手机门槛,缓解“数字鸿沟”问题。
6.5 移动应用自动化测试
场景描述:测试团队需频繁验证App登录、支付等核心流程。
测试指令:
“测试微信登录流程:输入错误密码3次,验证是否出现锁定提示。”AI 自动生成测试脚本并执行,记录每一步结果,生成测试报告。
优势:非技术人员也能编写测试用例,提升测试覆盖率与效率。
7. 总结
Open-AutoGLM 代表了新一代 AI Agent 在移动终端上的重要突破。它不仅是一个自动化工具,更是一种全新的“人机协作”范式——用户只需表达意图,AI 负责实现细节。
7.1 核心价值回顾
- 自然语言驱动:告别繁琐脚本,一句话完成复杂操作
- 多模态感知:真正“看懂”屏幕,适应各种UI变化
- 开源可控:代码透明,支持本地部署,保障数据安全
- 广泛适用:覆盖社交、电商、办公、医疗、测试等多个领域
7.2 实践建议
- 初学者建议:从简单任务入手(如打开App、发送消息),逐步尝试复合指令
- 性能优化:优先使用GPU部署模型,提升响应速度
- 安全性注意:避免在公共设备上启用自动化,敏感操作务必开启确认机制
- 扩展开发:可通过插件机制集成自定义工具,增强AI能力
随着大模型与具身智能的融合加深,Open-AutoGLM 正在为我们描绘一个“AI随身助理”的未来图景。现在,正是动手体验的最佳时机。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。