想让AI接管手机？Open-AutoGLM最全使用手册-深圳市維司達科技有限公司

想让AI接管手机？Open-AutoGLM最全使用手册

1. 简介

Open-AutoGLM 是由智谱AI（ZhipuAI）开源的一款面向手机端的智能助理框架，基于 AutoGLM 构建，专为实现自然语言驱动的 Android 设备自动化操作而设计。该项目采用 Apache-2.0 开源协议，支持本地部署、商业使用，并强调用户数据隐私保护。

该框架的核心能力在于将视觉语言模型与ADB（Android Debug Bridge）控制技术深度融合，构建出一个具备“看懂屏幕”和“自动操作”双重能力的 AI Agent。用户只需输入一句自然语言指令，如“打开小红书搜索美食并点赞前三条内容”，系统即可自动解析意图、识别当前界面元素、规划操作路径，并通过 ADB 执行点击、滑动、输入等动作，完成全流程自动化。

1.1 技术架构概览

Open-AutoGLM 的工作流程遵循典型的“感知-决策-执行”闭环：

截图获取：通过 ADB 实时截取手机屏幕。
多模态理解：将截图与用户指令一同输入视觉语言模型（VLM），模型输出对当前界面的理解及下一步操作建议。
动作规划：解析模型输出，生成标准化的操作命令（如 tap、swipe、input）。
执行反馈：通过 ADB 在设备上执行操作，更新界面后再次截图，进入下一轮循环。
终止判断：当任务完成或达到最大步数时结束流程。

这一机制使得 AI 能够像人类一样“边看边操作”，适应复杂多变的应用界面。

2. 核心功能详解

2.1 多模态屏幕理解能力

传统自动化工具依赖控件ID或坐标定位，难以应对动态界面。Open-AutoGLM 使用视觉语言模型直接分析屏幕图像，结合上下文语义理解界面元素的功能。

例如，在微信聊天列表中，模型不仅能识别出“文件传输助手”的图标和文字标签，还能理解其作为“常用联系人”的角色，从而准确选择目标进行交互。

技术优势：无需预先知道应用内部结构，适用于任何第三方App，包括未开放API的服务。

2.2 自然语言任务解析

系统支持复杂的复合指令解析。例如：

“打开抖音，搜索用户名为 dycwo11nt61d 的博主，进入主页后关注他，并转发最新视频到朋友圈。”

AI会自动拆解为以下子任务： - 启动抖音 App - 定位搜索框并输入用户名 - 点击搜索结果中的目标账号 - 查找“关注”按钮并点击 - 进入最新视频页，触发分享菜单 - 选择“分享到朋友圈”

整个过程无需人工干预，体现了强大的语义理解和流程编排能力。

2.3 跨应用协同操作

得益于对全局状态的持续感知，Open-AutoGLM 支持跨应用的任务流转。典型场景包括： - 从浏览器复制信息 → 粘贴至微信发送 - 在美团下单 → 自动截图订单详情 → 发送给家人 - 浏览新闻App → 提取标题 → 在微博发布摘要

这种能力打破了单个App的边界，真正实现了“以用户为中心”的服务串联。

2.4 安全与权限管理机制

为防止误操作带来风险，系统内置了敏感行为拦截策略： -常规操作（如打开App、浏览内容）：AI可自主执行 -高危操作（如支付、删除账户、授权登录）：需弹窗提示用户确认 -验证码场景：检测到验证码输入框时暂停自动化，允许人工接管

所有操作均在本地完成，不上传截图或指令至云端（除非使用远程模型服务），保障用户隐私安全。

2.5 灵活的部署方式

Open-AutoGLM 支持多种运行模式，满足不同硬件条件和使用需求：

部署方式	特点说明
本地GPU部署	使用 vLLM 或 SGLang 在本地运行模型，延迟低、隐私性强，适合高性能PC
云端API调用	接入智谱BigModel、Hugging Face等平台API，节省本地资源
远程WiFi调试	通过无线ADB连接设备，实现远程控制与开发测试

3. 环境准备与安装配置

3.1 系统与硬件要求

控制端（本地电脑）

操作系统：Windows 10/11、macOS 10.15+、Linux（Ubuntu 18.04+）
Python版本：3.9 或以上（推荐 3.10+）
内存：至少8GB RAM，建议16GB以上
显卡：NVIDIA GPU（RTX 3090及以上）可显著提升推理速度；CPU模式可用但响应较慢
存储空间：预留至少200MB用于代码与缓存

安卓设备

系统版本：Android 7.0 及以上
开发者选项：需开启“USB调试”
网络连接：支持USB线缆或同一局域网下的WiFi连接
输入法：安装 ADB Keyboard，用于文本输入自动化

3.2 ADB 工具配置

ADB 是连接和控制安卓设备的核心工具，需提前安装并配置环境变量。

Windows 配置步骤

下载 Android SDK Platform Tools
解压到本地目录（如C:\platform-tools）
添加路径至系统环境变量：
Win + R→ 输入sysdm.cpl
“高级” → “环境变量” → 在“系统变量”中编辑Path
新增条目：C:\platform-tools
验证安装：

adb version # 应输出类似：Android Debug Bridge version 1.0.41

macOS 配置方法

# 假设 platform-tools 解压在 ~/Downloads/platform-tools export PATH=${PATH}:~/Downloads/platform-tools # 可将此行加入 ~/.zshrc 或 ~/.bash_profile 实现永久生效

3.3 手机端设置

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次，直到提示“您已进入开发者模式”。
启用USB调试
返回设置主界面 → 开发者选项 → 开启“USB调试”。
安装 ADB Keyboard
下载 APK 文件：ADB Keyboard GitHub Release
安装后进入“语言与输入法”设置
将默认输入法切换为ADB Keyboard

注意：部分品牌手机（如小米、华为）可能需要额外授权“USB安装”或关闭“MIUI优化”。

4. 部署与启动 Open-AutoGLM

4.1 克隆项目与安装依赖

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境（推荐） python -m venv venv source venv/bin/activate # Linux/macOS # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

4.2 启动模型服务

若使用本地GPU部署，需先启动模型推理服务。假设已安装vLLM：

python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 4096 \ --gpu-memory-utilization 0.9

提示：首次运行会自动下载模型权重（约5GB），请确保网络畅通。

4.3 连接安卓设备

USB 连接方式

使用数据线连接手机与电脑
手机弹出“允许USB调试？”对话框时点击“允许”
执行命令验证连接：

adb devices # 输出应包含设备序列号和 "device" 状态

WiFi 无线连接方式

适用于远程调试或摆脱线缆束缚：

# 第一步：通过USB连接启用TCP/IP模式 adb tcpip 5555 # 第二步：断开USB，使用IP连接 adb connect 192.168.x.x:5555 # 替换 x.x 为手机实际IP地址（可在WiFi设置中查看） # 验证连接 adb devices

4.4 启动 AI 代理执行任务

命令行方式运行

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信给文件传输助手发消息：测试成功"

参数说明： ---device-id：来自adb devices的设备ID ---base-url：模型服务地址，本地为http://localhost:8000/v1---model：模型名称，固定为autoglm-phone-9b- 最后字符串：自然语言指令

Python API 调用示例

from phone_agent.adb import ADBConnection from openautoglm import PhoneAgent # 初始化连接 conn = ADBConnection() conn.connect("192.168.1.100:5555") # 创建AI代理 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://localhost:8000/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("打开小红书搜索‘秋季穿搭’") print(result)

交互式调试模式

python main.py --interactive \ --device-id YOUR_DEVICE_ID \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b"

进入交互模式后，可连续下达多条指令，便于调试复杂任务流。

5. 常见问题与排查指南

5.1 设备连接失败

问题现象	可能原因	解决方案
`adb devices`无输出	驱动未安装	Windows 用户建议安装 Google USB Driver
显示 unauthorized	未授权调试	断开重连，手机端确认“允许USB调试”
连接频繁断开	WiFi不稳定	改用USB连接，或检查路由器信号强度

5.2 模型响应异常

问题现象	可能原因	解决方案
返回乱码或空响应	模型加载不完整	检查`vLLM`启动日志，确认`max-model-len`至少为 4096
推理极慢（CPU模式）	缺少GPU加速	升级至GPU服务器，或改用云端API
404错误	base-url 错误	确保 URL 包含`/v1`路径

5.3 输入无法正常发送

问题：文本输入未出现在输入框
原因：未启用 ADB Keyboard 或焦点未正确获取
解决：
确认 ADB Keyboard 已设为默认输入法
在任务开始前手动点击输入框获取焦点
检查是否被其他输入法抢占（如搜狗、百度输入法）

6. 应用场景与实践案例

6.1 社交媒体自动化运营

场景描述：自媒体创作者需每日在抖音、小红书、微博发布内容并互动。

解决方案：

“打开小红书，发布一张图片，标题为‘今日OOTD’，添加话题#穿搭分享，然后切换到抖音，上传同一视频并@三个好友。”

AI 自动完成： - 图片选择与上传 - 文案填写与话题添加 - 多平台切换与发布

效果：单日内容发布时间从1小时缩短至5分钟，发布及时性大幅提升。

6.2 电商抢购与比价

场景描述：用户希望在商品开售瞬间抢购限量款产品。

解决方案：

“监控京东页面 https://item.jd.com/123456.html，一旦显示‘立即购买’按钮就点击并提交订单。”

AI 持续监听页面变化，在毫秒级时间内完成点击操作，远超人工反应速度。

优势：避免错过秒杀机会，尤其适用于高价电子产品、球鞋、演唱会票等稀缺资源。

6.3 办公自动化辅助

场景描述：员工每天需将日报录入企业微信，并发送给主管。

指令示例：

“打开Excel，读取A1到A10的数据，汇总成一句话，然后在企业微信中发送给张经理。”

AI 执行流程： - 截图读取Excel内容（需保持可见） - 提取关键数据生成摘要 - 打开企业微信，搜索联系人，发送消息

价值：减少重复劳动，降低人为录入错误率。

6.4 老年人数字生活助手

场景描述：子女远程帮助父母完成挂号、缴费、视频通话等操作。

实现方式： - 子女通过家庭群聊发送语音：“帮妈妈预约明天上午9点的眼科号” - AI 自动打开医院App，选择科室、医生、时间段并完成预约

社会意义：降低老年人使用智能手机门槛，缓解“数字鸿沟”问题。

6.5 移动应用自动化测试

场景描述：测试团队需频繁验证App登录、支付等核心流程。

测试指令：

“测试微信登录流程：输入错误密码3次，验证是否出现锁定提示。”

AI 自动生成测试脚本并执行，记录每一步结果，生成测试报告。

优势：非技术人员也能编写测试用例，提升测试覆盖率与效率。

7. 总结

Open-AutoGLM 代表了新一代 AI Agent 在移动终端上的重要突破。它不仅是一个自动化工具，更是一种全新的“人机协作”范式——用户只需表达意图，AI 负责实现细节。

7.1 核心价值回顾

自然语言驱动：告别繁琐脚本，一句话完成复杂操作
多模态感知：真正“看懂”屏幕，适应各种UI变化
开源可控：代码透明，支持本地部署，保障数据安全
广泛适用：覆盖社交、电商、办公、医疗、测试等多个领域

7.2 实践建议

初学者建议：从简单任务入手（如打开App、发送消息），逐步尝试复合指令
性能优化：优先使用GPU部署模型，提升响应速度
安全性注意：避免在公共设备上启用自动化，敏感操作务必开启确认机制
扩展开发：可通过插件机制集成自定义工具，增强AI能力

随着大模型与具身智能的融合加深，Open-AutoGLM 正在为我们描绘一个“AI随身助理”的未来图景。现在，正是动手体验的最佳时机。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。