Open-AutoGLM使用全攻略:适合新手的精简版教程
你有没有想过,让AI替你点外卖、查价格、发朋友圈,甚至帮你关注抖音博主?Open-AutoGLM 就是这样一款真正能“动手”的手机端AI助手——它不只聊天,还能看懂屏幕、理解界面、自动点击、输入文字、完成跨App任务。更关键的是,它不需要你写一行代码就能上手,只要会说人话,就能指挥手机干活。
本教程专为新手设计,跳过冗长的服务器部署细节(那些内容已有完整文档覆盖),聚焦在最核心的三件事:怎么连上你的手机、怎么调通云端模型、怎么用一句自然语言让AI开始工作。全程不碰Docker、不配GPU驱动、不改防火墙,所有操作在本地电脑完成,15分钟内即可看到AI第一次自动打开App并执行指令。
如果你已经有一台运行vLLM服务的云服务器(哪怕只是试用版),这篇就是为你准备的“开箱即用”指南。
1. 前提确认:你只需要这三样东西
在动手前,请花30秒确认以下三项是否已就绪。缺一不可,但每一项都极容易搞定:
- 一台安卓手机(Android 7.0+):真机或模拟器均可,推荐用旧手机测试,避免影响日常使用
- 一台本地电脑(Windows/macOS):用于运行控制端和ADB工具,无需高性能配置
- 一个已部署好的AutoGLM-Phone模型服务地址:例如
http://123.56.78.90:8800/v1(这是你云服务器的IP+端口,不是本地地址)
注意:本教程默认你已跳过服务器端部署环节。如果你还没搭好模型服务,可先访问Open-AutoGLM GitHub查看快速启动镜像,或参考文末链接获取一键部署方案。我们只讲“怎么让AI动起来”,不讲“怎么造引擎”。
2. 手机设置:三步开启“被操控”权限
手机不是生来就接受AI指挥的,需要手动打开几个开关。整个过程不到2分钟,且只需设置一次。
2.1 开启开发者模式与USB调试
这是所有自动化操作的基础,就像给手机装上“遥控接收器”:
- 进入手机「设置」→「关于手机」→连续点击「版本号」7次,直到弹出“您现在处于开发者模式”提示
- 返回「设置」→「系统与更新」→「开发者选项」→开启「USB调试」
- 连接手机到电脑的USB线,首次连接时,手机会弹出“允许USB调试吗?”对话框 →务必勾选“始终允许”,再点确定
小技巧:如果没弹窗,拔插USB线重试;若仍无反应,检查USB线是否仅支持充电(需数据线)。
2.2 安装ADB Keyboard(解决输入问题)
普通手机键盘无法被程序调用,必须换成ADB专用输入法:
- 下载 ADB Keyboard APK(约150KB,无广告)
- 在手机上安装该APK(需开启「未知来源应用安装」权限)
- 进入「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」作为默认
验证成功:后续执行命令时,AI才能在搜索框里准确打出“美食”“小红书”等文字,而不是乱码或卡住。
3. 本地环境搭建:装好“指挥官”软件
控制端代码就是AI的“大脑外设”,它负责拍照传图、接收模型指令、驱动手机点击。我们用最轻量的方式安装。
3.1 安装ADB工具(5分钟搞定)
ADB是Android调试桥,是连接电脑和手机的唯一通道。无需复杂配置,按系统选择:
Windows用户:
- 下载 Android Platform Tools
- 解压到任意文件夹,如
C:\adb - 按
Win + R输入sysdm.cpl→「高级」→「环境变量」→「系统变量」→「Path」→「编辑」→「新建」→粘贴C:\adb→ 点击「确定」 - 打开命令提示符,输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功
macOS用户:
- 下载 platform-tools-latest-darwin.zip
- 解压后进入终端,执行:
export PATH=${PATH}:~/Downloads/platform-tools echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version
关键验证:在终端输入
adb devices,若显示List of devices attached后跟一串设备ID(如ZY322XXX device),说明手机已成功接入。
3.2 获取并运行Open-AutoGLM控制端
这才是真正的“AI遥控器”,它轻量、开源、无需编译:
# 1. 克隆代码(约10秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(Python 3.10+,约1分钟) pip install -r requirements.txt pip install -e . # 3. 验证安装(无报错即成功) python -c "from phone_agent.adb import ADBConnection; print(' 控制端加载正常')"提示:如果
pip install -e .报错pydantic<2.0冲突,直接运行pip install "pydantic<2.0"再重试即可。这是常见兼容性问题,非环境异常。
4. 连接与测试:让AI第一次“看见”你的手机
现在,AI有了“眼睛”(视觉模型)、“手”(ADB)、“大脑”(云端服务),只差一次握手。
4.1 确认设备连接方式
根据你的使用场景选择一种(推荐USB,最稳定):
- USB直连(新手首选):手机用数据线连电脑 → 终端运行
adb devices→ 确认设备状态为device - WiFi无线连接(适合远程):
# 先用USB连一次,启用网络调试 adb tcpip 5555 # 拔掉USB线,用WiFi连接(手机和电脑需在同一局域网) adb connect 192.168.1.100:5555 # 替换为手机实际IP adb devices # 应显示 IP:5555 device
查找手机IP:安卓进入「设置」→「Wi-Fi」→点击当前网络 → 查看「IP地址」(通常形如
192.168.1.xxx)
4.2 一条命令,启动AI代理
这才是全文最核心的一行命令。请将其中三个占位符替换成你的实际信息:
python main.py \ --device-id ZY322XXX \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索‘北京烤鸭’并保存第一张图片"--device-id:从adb devices输出中复制的设备ID(如ZY322XXX或192.168.1.100:5555)--base-url:你的云服务器模型服务地址(格式必须是http://IP:端口/v1)- 最后字符串:你的自然语言指令,越具体越好(支持中文,无需特殊格式)
执行后你会看到:
- 终端实时打印
📸 截图已上传、正在分析界面...、🖱 执行点击:坐标(520, 310)等日志- 手机屏幕自动亮起 → 打开小红书 → 顶部搜索框出现光标 → 自动输入“北京烤鸭” → 点击搜索 → 滑动页面 → 长按第一张图 → 弹出“保存图片”菜单
如果一切顺利,10–30秒内,AI就完成了人类需手动操作10步的任务。
5. 实用技巧与避坑指南:新手最容易卡住的5个地方
即使按教程操作,也可能遇到“看起来对,但没反应”的情况。以下是真实用户高频问题的解决方案,按优先级排序:
5.1 指令没响应?先检查这三点
| 现象 | 可能原因 | 一句话解决 |
|---|---|---|
终端卡在Waiting for model response...超过1分钟 | 模型服务地址填错或网络不通 | 在浏览器打开http://你的IP:端口/health,若返回{"status":"healthy"}则服务正常;否则检查云服务器安全组是否放行端口 |
手机没任何动作,但终端显示截图成功 | ADB未获得手机权限 | 断开USB重连,手机弹窗时务必点“允许”;或进「开发者选项」→ 关闭再开启「USB调试」 |
| AI识别错界面(比如把微信当成小红书) | 手机屏幕有锁屏、通知栏或悬浮窗遮挡 | 执行前手动清空通知栏、关闭所有悬浮窗、确保屏幕完全显示App主界面 |
5.2 让指令更可靠的小技巧
- 指令要带明确动词:用“打开”“搜索”“点击”“输入”“长按”,避免“帮我看看小红书有什么好吃的”这类模糊表达
- 指定App名称而非图标:写“打开小红书”比“打开那个红色小书图标”更稳定
- 数字用阿拉伯数字:写“第1个”比“第一个”识别率高;写“搜索‘dycwo11nt61d’”比“搜索抖音号dycwo11nt61d”更准
- 敏感操作会暂停:当AI需要输入密码或验证码时,会自动停止并提示
需人工接管,此时你手动输入后,再回车继续
5.3 快速验证是否真“可用”
不用每次都写新指令,用这个内置测试句检验全流程:
python main.py --device-id ZY322XXX --base-url http://123.56.78.90:8800/v1 --model "autoglm-phone-9b" "打开设置,进入关于手机,截图"预期效果:手机自动打开「设置」→ 滑动到底部点击「关于手机」→ 自动截屏 → 终端显示截图已保存至 ./screenshots/xxx.png。
这个指令覆盖了启动App、点击、滑动、截图全部基础能力,5秒内出结果。
6. 进阶玩法:从“能用”到“好用”
当你跑通第一条指令后,可以立刻尝试这些零成本提升体验的方法:
6.1 用Python API封装成自己的函数
不想每次敲长命令?写个两行脚本,以后只输一句话:
# save_as auto_runner.py from phone_agent.cli import run_agent run_agent( device_id="ZY322XXX", base_url="http://123.56.78.90:8800/v1", model="autoglm-phone-9b", instruction="打开淘宝,搜索‘降噪耳机’,按销量排序,截图前三名商品" )运行:python auto_runner.py—— 和命令行效果完全一致,但更易复用。
6.2 处理多设备:同时指挥两部手机
只需两个终端窗口,分别运行:
# 窗口1:控制手机A python main.py --device-id ZY322XXX --base-url ... "给微信置顶好友发‘吃饭了吗’" # 窗口2:控制手机B python main.py --device-id 192.168.1.101:5555 --base-url ... "打开钉钉,打卡"原理:Open-AutoGLM 的每个实例只绑定一个设备,互不干扰。适合测试不同机型或批量操作。
6.3 指令模板库(直接复制粘贴)
保存这些常用指令,随取随用:
打开微博,搜索‘今日热点’,截图热搜榜打开美团,定位到‘上海徐汇区’,搜索‘咖啡’,点击第一家店,截图营业时间打开相册,找到最近一张自拍,分享到微信‘我的家人’分组打开京东,搜索‘机械键盘’,按价格升序,截图最便宜的3款商品详情页
这些不是示例,而是真实通过测试的指令。你只需替换关键词(如把“上海徐汇区”改成你所在位置),就能立即生效。
7. 总结:你已经掌握了AI手机助理的核心能力
回顾一下,你刚刚完成了什么:
- 在手机上开启了开发者权限和ADB调试,赋予AI“操作权”
- 在电脑上装好了ADB和Open-AutoGLM控制端,搭建了“指挥链路”
- 用一条命令连接云端模型,让AI第一次读懂屏幕、理解意图、自动执行
- 掌握了5个高频问题的排查方法,不再被卡在第一步
- 学会了封装API、多设备控制、指令模板等进阶技巧,让效率翻倍
Open-AutoGLM 的本质,不是另一个聊天机器人,而是一个可编程的数字双手。它不替代你的思考,但把重复的手动操作交给AI——查价格、比参数、填表单、截证据、同步信息……这些琐事,从此只需一句话。
下一步,你可以尝试让它帮你:
- 每天早上自动截图天气预报发到家庭群
- 监控电商页面降价,降价时自动下单
- 辅助老人操作手机,语音说“帮我看微信红包”就自动点开
技术的价值,从来不在参数多高,而在是否真正省去了你手指的那一次点击。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。