无需手动点击！Open-AutoGLM自然语言指令执行教程-深圳市維司達科技有限公司

无需手动点击！Open-AutoGLM自然语言指令执行教程

你有没有想过，以后用手机再也不用自己点来点去了？不是靠语音助手那种“听个大概就猜”，而是真正看懂屏幕、理解你的意思、再一步步帮你操作——就像身边有个懂安卓的AI朋友，你只管说“打开小红书搜美食”，它就自动完成打开App、输入关键词、点搜索、翻结果整套动作。

这就是 Open-AutoGLM 带来的改变。它不是又一个聊天机器人，而是一个能“看见”手机屏幕、“听懂”你说话、“动手”执行任务的真·手机端AI Agent框架。由智谱开源，专为移动端轻量化部署设计，核心能力直击真实使用痛点：不依赖预设脚本、不绑定特定App、不强制Root、不需反复训练——你下指令，它就干。

更关键的是，它把复杂的技术藏在背后：视觉语言模型负责“看图说话”，ADB（Android Debug Bridge）负责“代你点击”，智能规划模块负责“想清楚下一步该干嘛”。整个过程对用户完全透明，你只需要像跟人说话一样，用最自然的语言提需求。

下面我们就从零开始，手把手带你把这套能力装进自己的电脑和手机，让AI真正接管你的安卓设备。

1. 先搞懂它到底是什么：Open-AutoGLM与Phone Agent的关系

Open-AutoGLM 是一个开源项目名称，你可以把它理解成整套技术方案的“源代码仓库”和“开发套件”。而 Phone Agent，则是基于 Open-AutoGLM 构建出来的、可直接运行的手机智能助理系统。两者关系就像“Linux内核”和“Ubuntu系统”——前者提供底层能力，后者封装成开箱即用的产品。

1.1 它怎么做到“看懂屏幕+自动操作”的？

传统自动化工具（比如Auto.js）靠坐标点击或控件ID，一旦界面改版就失效；而 Phone Agent 走的是多模态理解路线：

“看”：每一步操作前，它会通过ADB截取当前手机屏幕画面，送入视觉语言模型（VLM），识别出界面上所有文字、按钮、图标、布局结构——相当于给AI配了一双眼睛。
“听”：你输入的自然语言指令（如“登录微信并发送‘收到’给张三”），会被大语言模型解析成明确意图、目标App、关键操作对象（张三）、动作类型（发送消息）。
“想”：规划模块把“看”到的画面和“听”到的指令对齐，生成可执行的动作序列：先找微信图标→点击打开→等待加载→找联系人搜索框→输入“张三”→点击头像→进入聊天页→输入框点一下→输入“收到”→点发送。
“做”：最后，ADB按序列精准执行点击、滑动、输入等操作，全程无需人工干预。

1.2 和普通语音助手有啥本质区别？

对比项	Siri / 小爱同学	Phone Agent（Open-AutoGLM）
交互方式	语音唤醒 + 有限固定指令（如“打电话给妈妈”）	自然语言文本输入，支持长句、上下文、模糊表达（如“把上个月发给李四的截图发给王五”）
理解深度	依赖关键词匹配，无法处理界面动态变化	实时感知当前屏幕状态，能判断“登录按钮是否已变灰”“验证码框是否弹出”
执行能力	调用系统API，仅限系统级功能	操作任意已安装App，包括第三方社交、购物、办公类应用
容错机制	指令失败即终止	内置敏感操作确认（如支付、删除）、人工接管入口（遇到验证码自动暂停，等你输完再继续）

简单说：前者是“语音遥控器”，后者是“能看会想还能动手的数字分身”。

2. 硬件与环境准备：三步搭好控制台

别被“AI”“多模态”吓住——这套系统对本地电脑要求极低，一台日常办公的MacBook或Windows笔记本就能跑起来。真正需要准备的是三样东西：一台安卓手机、一台能连它的电脑、以及一点耐心。

2.1 你的设备得满足这些基本条件

电脑端：Windows 10/11 或 macOS Monterey（12）及以上，Python 3.10+（推荐3.10或3.11，兼容性最好）
手机端：Android 7.0（Nougat）及以上，建议使用近3年主流机型（确保ADB稳定、截图清晰）
网络：USB线（首选）或同一局域网WiFi（用于无线调试）

为什么强调Android 7.0+？
更低版本系统对ADB权限管理较松，但截图API不稳定，会导致视觉模型“看不清”；7.0后引入了更规范的截屏接口，Open-AutoGLM依赖它获取高质量画面。

2.2 ADB工具：你和手机之间的“翻译官”

ADB（Android Debug Bridge）是谷歌官方提供的命令行工具，它让电脑能和安卓设备通信——发指令、传文件、截屏幕、模拟点击。Open-AutoGLM所有操作都靠它驱动。

Windows 用户快速配置：

去Android SDK Platform-Tools官网下载最新zip包；
解压到一个固定路径，例如C:\platform-tools；
Win+R 输入sysdm.cpl→ “高级”选项卡 → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴你解压的完整路径（如C:\platform-tools）；
打开新命令提示符（CMD或PowerShell），输入adb version，看到类似Android Debug Bridge version 1.0.41即成功。

macOS 用户一行搞定：

打开终端，执行（请将路径替换为你实际解压位置）：

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

如果返回版本号，说明已就绪。

小技巧：验证ADB是否真通？
手机用USB线连电脑 → 手机通知栏拉下 → 点击“USB用于” → 选“文件传输”或“传输文件” → 回到电脑终端输入adb devices，若显示一串字母数字组合（如ABC123456789 device），代表连接成功。

3. 手机端设置：打开“允许被操控”的开关

安卓系统默认禁止外部程序操控界面，我们需要手动开启几个关键权限。整个过程约2分钟，只需操作一次，后续长期有效。

3.1 开启开发者选项与USB调试

这是所有ADB操作的前提：

进入手机【设置】→【关于手机】→ 连续点击【版本号】7次 → 弹出“您现在处于开发者模式”；
返回设置首页 → 找到【开发者选项】（通常在“系统”或“更多设置”里）→ 开启【USB调试】；
首次开启时，手机会弹窗问“允许USB调试吗？”，勾选【始终允许】→ 点【确定】。

3.2 安装ADB Keyboard：让AI能“打字”

普通输入法无法被ADB直接调用，必须换一个专为自动化设计的键盘：

前往 ADB Keyboard GitHub Release页下载最新apk（如ADBKeyboard.apk）；
用浏览器或文件管理器安装（需开启“未知来源应用安装”）；
安装完成后，进入【设置】→【语言与输入法】→【虚拟键盘】→ 将【ADB Keyboard】设为默认。

验证是否生效？
终端执行adb shell input text "hello"，如果手机当前输入框里立刻出现“hello”，说明键盘已接管成功。

4. 部署控制端：三行命令跑起来

现在，本地环境和手机都准备好了，我们来部署Open-AutoGLM的控制端代码。注意：这里只部署“指挥中心”，真正的AI大脑（视觉语言模型）运行在云端服务器（你自己的vLLM服务或CSDN星图镜像），本地只负责截图、传图、发指令、执行ADB动作。

4.1 克隆代码并安装依赖

打开终端（Windows用PowerShell，macOS用Terminal），依次执行：

# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境（推荐，避免包冲突） python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖（含ADB通信、图像处理、HTTP客户端） pip install -r requirements.txt pip install -e .

为什么用-e安装？
这是“可编辑安装”，意味着你后续修改代码里的逻辑（比如调整截图分辨率、加日志），不用重复pip install，改完直接生效，对调试极其友好。

4.2 连接你的手机：USB or WiFi？

USB直连（新手首选，最稳）

确保手机已用USB线连接且adb devices显示设备在线：

adb devices # 正常输出示例： # List of devices attached # ABC123456789 device

WiFi无线连接（适合远程调试）

如果你希望摆脱USB线束缚，可以走WiFi：

# 第一步：先用USB连上，开启TCP/IP模式 adb tcpip 5555 # 第二步：拔掉USB线，用WiFi连（需手机和电脑在同一局域网） # 查看手机IP：设置 → 关于手机 → 状态 → IP地址（如 192.168.1.105） adb connect 192.168.1.105:5555 # 验证是否连上 adb devices # 应显示：192.168.1.105:5555 device

常见问题：WiFi连接后adb devices显示unauthorized？
手机弹出“允许USB调试吗？”窗口，务必勾选【始终允许】再点确定。这是安卓的安全机制，只认一次授权。

5. 让AI开始工作：一条指令，全自动执行

一切就绪，现在到了最激动人心的环节——给你手机下第一道自然语言指令。我们以“打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！”为例，演示完整流程。

5.1 命令行一键启动（最简方式）

在Open-AutoGLM项目根目录下，执行：

python main.py \ --device-id ABC123456789 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：填adb devices显示的设备ID（USB）或IP:端口（WiFi）；
--base-url：指向你部署好的vLLM服务地址（如用CSDN星图镜像，端口映射为8800）；
--model：指定模型名，autoglm-phone-9b是官方优化的9B参数手机专用模型；
最后字符串：就是你的自然语言指令，引号包裹，支持中文、标点、空格。

执行后，你会看到终端滚动输出：

[INFO] 截取屏幕... 已保存至 ./screenshots/20240520_142211.png [INFO] 上传截图与指令至云端模型... [INFO] 模型返回动作：OPEN_APP(抖音) [INFO] 执行：点击抖音图标 [INFO] 截取屏幕... 等待App加载 [INFO] 模型返回动作：TAP_TEXT("搜索") [INFO] 执行：点击搜索框 ... [INFO] 动作完成！共执行7步，耗时28.4秒

整个过程无需你碰手机，AI自己截图、分析、决策、点击，直到关注成功。

5.2 Python API调用（适合集成进自己的工具）

如果你希望把Phone Agent能力嵌入到自己的脚本或Web后台，可以用API方式调用：

from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent # 1. 初始化ADB连接管理器 conn = ADBConnection() # 2. 连接设备（支持USB或WiFi） success, msg = conn.connect("ABC123456789") # 或 "192.168.1.105:5555" print(f"连接结果：{msg}") # 3. 创建PhoneAgent实例，指向你的云模型 agent = PhoneAgent( base_url="http://192.168.1.200:8800/v1", model_name="autoglm-phone-9b" ) # 4. 下达指令（同步阻塞，等待执行完成） result = agent.run( device_id="ABC123456789", instruction="打开小红书，搜索‘云南咖啡’，进入第一个笔记，点赞并收藏" ) print(f"执行状态：{result.status}") print(f"详细步骤：{result.steps}")

这段代码可以放在任何Python项目里，作为“手机自动化引擎”模块复用。

6. 故障排查指南：遇到问题别慌，90%在这里解决

即使配置全对，实操中也可能遇到小状况。以下是高频问题及对应解法，按发生概率排序：

6.1 ADB连接相关

问题：adb devices显示unauthorized或空白
解法：手机弹窗没点“允许”；或USB调试开关被意外关闭；或电脑重装过驱动。重新开启USB调试，拔插USB线，手机点授权。
问题：WiFi连接后adb shell提示closed
解法：路由器开启了AP隔离（常见于公共WiFi），导致设备间无法通信。换家用WiFi，或关闭AP隔离功能。

6.2 模型服务相关

问题：终端卡在上传截图...，无后续输出
解法：检查--base-url是否填错；云服务器防火墙是否放行8800端口；vLLM服务是否真的在运行（curl http://localhost:8800/v1/models应返回JSON）。
问题：模型返回乱码、空动作、或一直说“正在思考”
解法：检查vLLM启动命令中的--max-model-len 4096和--gpu-memory-utilization 0.95是否与显存匹配；9B模型在24G显存卡上建议设为0.85。

6.3 手机端表现相关

问题：AI点了半天，手机没反应
解法：确认ADB Keyboard已设为默认输入法；检查手机是否开启了“开发者选项”里的【USB调试（安全设置）】（部分华为/小米需额外开启）。
问题：遇到验证码/登录页，AI停住了不继续
解法：这是设计的安全机制。此时你手动输入验证码 → AI检测到界面变化（如“关注”按钮出现）会自动恢复执行。无需重启。

终极建议：首次测试，选一个操作路径最短的指令
比如“打开设置，进入WLAN”，而不是“登录微信发消息”。路径越短，失败环节越少，能更快验证整套链路是否通畅。

7. 总结：你刚刚掌握了一种全新的交互范式

回看整个过程，我们没写一行AI模型代码，没调一个神经网络参数，甚至没碰GPU——却让AI真正“接管”了手机。这背后是三个关键技术的无缝咬合：

视觉语言模型（VLM）把像素变成语义，让AI读懂界面；
ADB协议把逻辑指令变成物理操作，让AI代替手指；
分层规划架构把模糊需求拆解成原子动作，让AI学会“想”。

而 Open-AutoGLM 的价值，正在于它把这些能力打包成普通人也能部署、调试、定制的工具。它不追求“取代人类”，而是成为你数字生活里的“超级外脑”：

运营人员用它批量管理10个账号；
测试工程师用它自动生成UI遍历脚本；
老年人用它语音控制复杂App；
开发者用它快速验证新功能在真实设备上的表现。

技术终将回归人的需求。当你不再为点错一个按钮而懊恼，不再为记不住App路径而翻找，不再为重复操作而疲惫——那一刻，AI才真正开始发光。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

无需手动点击！Open-AutoGLM自然语言指令执行教程