无需手动点击!Open-AutoGLM自然语言指令执行教程
你有没有想过,以后用手机再也不用自己点来点去了?不是靠语音助手那种“听个大概就猜”,而是真正看懂屏幕、理解你的意思、再一步步帮你操作——就像身边有个懂安卓的AI朋友,你只管说“打开小红书搜美食”,它就自动完成打开App、输入关键词、点搜索、翻结果整套动作。
这就是 Open-AutoGLM 带来的改变。它不是又一个聊天机器人,而是一个能“看见”手机屏幕、“听懂”你说话、“动手”执行任务的真·手机端AI Agent框架。由智谱开源,专为移动端轻量化部署设计,核心能力直击真实使用痛点:不依赖预设脚本、不绑定特定App、不强制Root、不需反复训练——你下指令,它就干。
更关键的是,它把复杂的技术藏在背后:视觉语言模型负责“看图说话”,ADB(Android Debug Bridge)负责“代你点击”,智能规划模块负责“想清楚下一步该干嘛”。整个过程对用户完全透明,你只需要像跟人说话一样,用最自然的语言提需求。
下面我们就从零开始,手把手带你把这套能力装进自己的电脑和手机,让AI真正接管你的安卓设备。
1. 先搞懂它到底是什么:Open-AutoGLM与Phone Agent的关系
Open-AutoGLM 是一个开源项目名称,你可以把它理解成整套技术方案的“源代码仓库”和“开发套件”。而 Phone Agent,则是基于 Open-AutoGLM 构建出来的、可直接运行的手机智能助理系统。两者关系就像“Linux内核”和“Ubuntu系统”——前者提供底层能力,后者封装成开箱即用的产品。
1.1 它怎么做到“看懂屏幕+自动操作”的?
传统自动化工具(比如Auto.js)靠坐标点击或控件ID,一旦界面改版就失效;而 Phone Agent 走的是多模态理解路线:
- “看”:每一步操作前,它会通过ADB截取当前手机屏幕画面,送入视觉语言模型(VLM),识别出界面上所有文字、按钮、图标、布局结构——相当于给AI配了一双眼睛。
- “听”:你输入的自然语言指令(如“登录微信并发送‘收到’给张三”),会被大语言模型解析成明确意图、目标App、关键操作对象(张三)、动作类型(发送消息)。
- “想”:规划模块把“看”到的画面和“听”到的指令对齐,生成可执行的动作序列:先找微信图标→点击打开→等待加载→找联系人搜索框→输入“张三”→点击头像→进入聊天页→输入框点一下→输入“收到”→点发送。
- “做”:最后,ADB按序列精准执行点击、滑动、输入等操作,全程无需人工干预。
1.2 和普通语音助手有啥本质区别?
| 对比项 | Siri / 小爱同学 | Phone Agent(Open-AutoGLM) |
|---|---|---|
| 交互方式 | 语音唤醒 + 有限固定指令(如“打电话给妈妈”) | 自然语言文本输入,支持长句、上下文、模糊表达(如“把上个月发给李四的截图发给王五”) |
| 理解深度 | 依赖关键词匹配,无法处理界面动态变化 | 实时感知当前屏幕状态,能判断“登录按钮是否已变灰”“验证码框是否弹出” |
| 执行能力 | 调用系统API,仅限系统级功能 | 操作任意已安装App,包括第三方社交、购物、办公类应用 |
| 容错机制 | 指令失败即终止 | 内置敏感操作确认(如支付、删除)、人工接管入口(遇到验证码自动暂停,等你输完再继续) |
简单说:前者是“语音遥控器”,后者是“能看会想还能动手的数字分身”。
2. 硬件与环境准备:三步搭好控制台
别被“AI”“多模态”吓住——这套系统对本地电脑要求极低,一台日常办公的MacBook或Windows笔记本就能跑起来。真正需要准备的是三样东西:一台安卓手机、一台能连它的电脑、以及一点耐心。
2.1 你的设备得满足这些基本条件
- 电脑端:Windows 10/11 或 macOS Monterey(12)及以上,Python 3.10+(推荐3.10或3.11,兼容性最好)
- 手机端:Android 7.0(Nougat)及以上,建议使用近3年主流机型(确保ADB稳定、截图清晰)
- 网络:USB线(首选)或同一局域网WiFi(用于无线调试)
为什么强调Android 7.0+?
更低版本系统对ADB权限管理较松,但截图API不稳定,会导致视觉模型“看不清”;7.0后引入了更规范的截屏接口,Open-AutoGLM依赖它获取高质量画面。
2.2 ADB工具:你和手机之间的“翻译官”
ADB(Android Debug Bridge)是谷歌官方提供的命令行工具,它让电脑能和安卓设备通信——发指令、传文件、截屏幕、模拟点击。Open-AutoGLM所有操作都靠它驱动。
Windows 用户快速配置:
- 去Android SDK Platform-Tools官网下载最新zip包;
- 解压到一个固定路径,例如
C:\platform-tools; - Win+R 输入
sysdm.cpl→ “高级”选项卡 → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴你解压的完整路径(如C:\platform-tools); - 打开新命令提示符(CMD或PowerShell),输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功。
macOS 用户一行搞定:
打开终端,执行(请将路径替换为你实际解压位置):
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version如果返回版本号,说明已就绪。
小技巧:验证ADB是否真通?
手机用USB线连电脑 → 手机通知栏拉下 → 点击“USB用于” → 选“文件传输”或“传输文件” → 回到电脑终端输入adb devices,若显示一串字母数字组合(如ABC123456789 device),代表连接成功。
3. 手机端设置:打开“允许被操控”的开关
安卓系统默认禁止外部程序操控界面,我们需要手动开启几个关键权限。整个过程约2分钟,只需操作一次,后续长期有效。
3.1 开启开发者选项与USB调试
这是所有ADB操作的前提:
- 进入手机【设置】→【关于手机】→ 连续点击【版本号】7次 → 弹出“您现在处于开发者模式”;
- 返回设置首页 → 找到【开发者选项】(通常在“系统”或“更多设置”里)→ 开启【USB调试】;
- 首次开启时,手机会弹窗问“允许USB调试吗?”,勾选【始终允许】→ 点【确定】。
3.2 安装ADB Keyboard:让AI能“打字”
普通输入法无法被ADB直接调用,必须换一个专为自动化设计的键盘:
- 前往 ADB Keyboard GitHub Release页 下载最新apk(如
ADBKeyboard.apk); - 用浏览器或文件管理器安装(需开启“未知来源应用安装”);
- 安装完成后,进入【设置】→【语言与输入法】→【虚拟键盘】→ 将【ADB Keyboard】设为默认。
验证是否生效?
终端执行adb shell input text "hello",如果手机当前输入框里立刻出现“hello”,说明键盘已接管成功。
4. 部署控制端:三行命令跑起来
现在,本地环境和手机都准备好了,我们来部署Open-AutoGLM的控制端代码。注意:这里只部署“指挥中心”,真正的AI大脑(视觉语言模型)运行在云端服务器(你自己的vLLM服务或CSDN星图镜像),本地只负责截图、传图、发指令、执行ADB动作。
4.1 克隆代码并安装依赖
打开终端(Windows用PowerShell,macOS用Terminal),依次执行:
# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含ADB通信、图像处理、HTTP客户端) pip install -r requirements.txt pip install -e .为什么用
-e安装?
这是“可编辑安装”,意味着你后续修改代码里的逻辑(比如调整截图分辨率、加日志),不用重复pip install,改完直接生效,对调试极其友好。
4.2 连接你的手机:USB or WiFi?
USB直连(新手首选,最稳)
确保手机已用USB线连接且adb devices显示设备在线:
adb devices # 正常输出示例: # List of devices attached # ABC123456789 deviceWiFi无线连接(适合远程调试)
如果你希望摆脱USB线束缚,可以走WiFi:
# 第一步:先用USB连上,开启TCP/IP模式 adb tcpip 5555 # 第二步:拔掉USB线,用WiFi连(需手机和电脑在同一局域网) # 查看手机IP:设置 → 关于手机 → 状态 → IP地址(如 192.168.1.105) adb connect 192.168.1.105:5555 # 验证是否连上 adb devices # 应显示:192.168.1.105:5555 device常见问题:WiFi连接后
adb devices显示unauthorized?
手机弹出“允许USB调试吗?”窗口,务必勾选【始终允许】再点确定。这是安卓的安全机制,只认一次授权。
5. 让AI开始工作:一条指令,全自动执行
一切就绪,现在到了最激动人心的环节——给你手机下第一道自然语言指令。我们以“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”为例,演示完整流程。
5.1 命令行一键启动(最简方式)
在Open-AutoGLM项目根目录下,执行:
python main.py \ --device-id ABC123456789 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:填adb devices显示的设备ID(USB)或IP:端口(WiFi);--base-url:指向你部署好的vLLM服务地址(如用CSDN星图镜像,端口映射为8800);--model:指定模型名,autoglm-phone-9b是官方优化的9B参数手机专用模型;- 最后字符串:就是你的自然语言指令,引号包裹,支持中文、标点、空格。
执行后,你会看到终端滚动输出:
[INFO] 截取屏幕... 已保存至 ./screenshots/20240520_142211.png [INFO] 上传截图与指令至云端模型... [INFO] 模型返回动作:OPEN_APP(抖音) [INFO] 执行:点击抖音图标 [INFO] 截取屏幕... 等待App加载 [INFO] 模型返回动作:TAP_TEXT("搜索") [INFO] 执行:点击搜索框 ... [INFO] 动作完成!共执行7步,耗时28.4秒整个过程无需你碰手机,AI自己截图、分析、决策、点击,直到关注成功。
5.2 Python API调用(适合集成进自己的工具)
如果你希望把Phone Agent能力嵌入到自己的脚本或Web后台,可以用API方式调用:
from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent # 1. 初始化ADB连接管理器 conn = ADBConnection() # 2. 连接设备(支持USB或WiFi) success, msg = conn.connect("ABC123456789") # 或 "192.168.1.105:5555" print(f"连接结果:{msg}") # 3. 创建PhoneAgent实例,指向你的云模型 agent = PhoneAgent( base_url="http://192.168.1.200:8800/v1", model_name="autoglm-phone-9b" ) # 4. 下达指令(同步阻塞,等待执行完成) result = agent.run( device_id="ABC123456789", instruction="打开小红书,搜索‘云南咖啡’,进入第一个笔记,点赞并收藏" ) print(f"执行状态:{result.status}") print(f"详细步骤:{result.steps}")这段代码可以放在任何Python项目里,作为“手机自动化引擎”模块复用。
6. 故障排查指南:遇到问题别慌,90%在这里解决
即使配置全对,实操中也可能遇到小状况。以下是高频问题及对应解法,按发生概率排序:
6.1 ADB连接相关
问题:
adb devices显示unauthorized或空白
解法:手机弹窗没点“允许”;或USB调试开关被意外关闭;或电脑重装过驱动。重新开启USB调试,拔插USB线,手机点授权。问题:WiFi连接后
adb shell提示closed
解法:路由器开启了AP隔离(常见于公共WiFi),导致设备间无法通信。换家用WiFi,或关闭AP隔离功能。
6.2 模型服务相关
问题:终端卡在
上传截图...,无后续输出
解法:检查--base-url是否填错;云服务器防火墙是否放行8800端口;vLLM服务是否真的在运行(curl http://localhost:8800/v1/models应返回JSON)。问题:模型返回乱码、空动作、或一直说“正在思考”
解法:检查vLLM启动命令中的--max-model-len 4096和--gpu-memory-utilization 0.95是否与显存匹配;9B模型在24G显存卡上建议设为0.85。
6.3 手机端表现相关
问题:AI点了半天,手机没反应
解法:确认ADB Keyboard已设为默认输入法;检查手机是否开启了“开发者选项”里的【USB调试(安全设置)】(部分华为/小米需额外开启)。问题:遇到验证码/登录页,AI停住了不继续
解法:这是设计的安全机制。此时你手动输入验证码 → AI检测到界面变化(如“关注”按钮出现)会自动恢复执行。无需重启。
终极建议:首次测试,选一个操作路径最短的指令
比如“打开设置,进入WLAN”,而不是“登录微信发消息”。路径越短,失败环节越少,能更快验证整套链路是否通畅。
7. 总结:你刚刚掌握了一种全新的交互范式
回看整个过程,我们没写一行AI模型代码,没调一个神经网络参数,甚至没碰GPU——却让AI真正“接管”了手机。这背后是三个关键技术的无缝咬合:
- 视觉语言模型(VLM)把像素变成语义,让AI读懂界面;
- ADB协议把逻辑指令变成物理操作,让AI代替手指;
- 分层规划架构把模糊需求拆解成原子动作,让AI学会“想”。
而 Open-AutoGLM 的价值,正在于它把这些能力打包成普通人也能部署、调试、定制的工具。它不追求“取代人类”,而是成为你数字生活里的“超级外脑”:
- 运营人员用它批量管理10个账号;
- 测试工程师用它自动生成UI遍历脚本;
- 老年人用它语音控制复杂App;
- 开发者用它快速验证新功能在真实设备上的表现。
技术终将回归人的需求。当你不再为点错一个按钮而懊恼,不再为记不住App路径而翻找,不再为重复操作而疲惫——那一刻,AI才真正开始发光。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。