小白也能懂的PhoneAgent:Open-AutoGLM保姆级教程
你有没有想过,以后手机不用自己点——说一句“帮我订一杯附近星巴克的冰美式”,它就自动打开APP、选门店、加冰、下单、付款?这不是科幻电影,而是今天就能上手的现实。Open-AutoGLM 就是这样一套让手机真正“听懂人话、看懂界面、动手做事”的开源框架。它不依赖定制硬件,不强制用特定手机,只要一台安卓真机+一台普通电脑,照着这篇教程走完,30分钟内你就能让AI替你刷小红书、比价下单、甚至帮你在抖音关注博主。
别被“多模态”“视觉语言模型”这些词吓退。这篇文章全程不用术语堆砌,不讲原理推导,只说:你该装什么、连什么、输哪行命令、遇到报错怎么救、第一次成功时看到什么画面。哪怕你上次写代码还是在Excel里敲过=SUM(),也能跟着做完。
1. 它到底能干什么?先看三个真实操作
在动手前,先建立一个具体印象:这不是“语音助手”,也不是“截图识别工具”,而是一个能持续观察屏幕+理解当前状态+自主决策下一步动作+精准执行点击/输入/滑动的完整闭环系统。
1.1 一句话完成跨APP流程
指令:
“打开小红书搜‘上海周末咖啡馆’,截第一张图发微信给文件传输助手”
实际发生的事:
- AI先识别当前是否在桌面 → 启动小红书
- 进入后识别搜索框位置 → 点击并输入文字
- 等待结果加载 → 找到首张图片 → 截图
- 自动切回微信 → 打开文件传输助手 → 粘贴图片 → 发送
全程无需你碰手机,电脑端只输入这一句话。
1.2 敏感操作有人把关
指令:
“登录淘宝账号,收货地址改成浦东新区张江路1号”
执行中,当AI检测到“登录”“密码输入框”“支付确认页”等高风险节点,会自动暂停,弹出提示:
【需人工确认】检测到登录页面,是否继续?(y/n)
你按y才往下走,按n立刻停止——安全不是口号,是写进流程里的默认开关。
1.3 远程也能操控,像修电脑一样修手机
你出差在外,朋友手机卡在某个APP更新失败页。他拍张当前屏幕发给你,你用自己电脑连上他的手机WiFi,运行一行命令:
python main.py --device-id 192.168.1.105:5555 "点‘重试’按钮"他的手机屏幕立刻响应。没有远程控制软件,不装任何第三方APP,纯靠ADB底层协议。
这三件事,就是Open-AutoGLM区别于所有其他AI工具的核心:它把手机当成可编程的实体设备,而不是只能对话的聊天窗口。
2. 准备工作:三件套齐了就能开工
别急着敲代码。先确认这三样东西你手边都有,缺一不可。我们按“最省事路径”列,不绕弯子。
2.1 你的电脑要满足什么条件?
| 项目 | 要求 | 怎么查? |
|---|---|---|
| 操作系统 | Windows 10/11 或 macOS Monterey (12.0) 及以上 | Win:设置→系统→关于;Mac:苹果菜单→关于本机 |
| Python版本 | 必须是 Python 3.10、3.11 或 3.12(3.13暂不支持) | 打开终端/命令提示符,输入python --version |
| 硬盘空间 | 至少留出 5GB 空闲空间(后续模型可放别处) | 右键“此电脑”或“访达”看剩余容量 |
注意:如果你用的是Mac M系列芯片(M1/M2/M3),请确保已安装Rosetta 2(系统自带,无需额外操作)。若用Windows,不要用Microsoft Store安装的Python,去官网下载.exe安装包,勾选“Add Python to PATH”。
2.2 你的安卓手机必须做这三步设置
很多失败案例,90%卡在这一步。请严格按顺序操作,每步完成后验证:
开启开发者模式
- 设置 → 关于手机 → 连续点击“版本号”7次
- 弹出“您现在处于开发者模式”提示即成功
开启USB调试
- 返回设置首页 → 系统和更新 → 开发者选项 → 打开“USB调试”
- 部分华为/小米机型还需勾选“USB调试(安全设置)”
安装并启用ADB Keyboard(关键!)
- 下载地址:https://github.com/zai-org/Open-AutoGLM/releases/download/v0.1.0/adb-keyboard.apk
- 在手机上安装该APK(允许“未知来源应用”安装)
- 设置 → 系统管理 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”
验证是否成功:用USB线连接手机和电脑 → 打开终端 → 输入adb devices→ 若显示一串字符+“device”,说明已识别。
2.3 ADB工具:一行命令搞定安装
不用手动下载、解压、配环境变量。我们用最简方式:
Windows用户:
下载 ADB All-in-One 工具包,解压到C:\adb,然后以管理员身份运行以下命令:setx /M PATH "%PATH%;C:\adb"macOS用户:
打开终端,粘贴运行:brew install android-platform-tools
验证:终端输入adb version,看到类似Android Debug Bridge version 1.0.41即成功。
3. 三步部署:从克隆代码到第一次运行
现在开始真正动手。全程在电脑终端(Windows用CMD/PowerShell,Mac用Terminal)操作,复制粘贴即可。
3.1 下载并安装控制端代码
# 1. 克隆仓库(约20秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染主Python) python -m venv venv venv\Scripts\activate # Windows # 或 source venv/bin/activate # macOS # 3. 安装依赖(约2分钟,网络好可更快) pip install -r requirements.txt pip install -e .提示:如果
pip install报错“no module named setuptools”,先运行pip install --upgrade pip setuptools wheel再重试。
3.2 连接你的手机(USB or WiFi)
USB直连(新手首选,稳定不掉线)
adb devices # 正常输出示例: # List of devices attached # 1234567890ABCDEF device记下那一串字母数字组合(如1234567890ABCDEF),这就是你的--device-id。
WiFi无线连接(适合长期使用)
# 第一次必须用USB线连接后执行 adb tcpip 5555 # 拔掉USB线,查看手机WiFi IP(设置→Wi-Fi→点当前网络→IP地址) # 假设IP是 192.168.1.105,则运行: adb connect 192.168.1.105:5555验证:adb devices应显示192.168.1.105:5555 device
3.3 调用云端模型服务(零配置最快方案)
你不需要自己下载20GB大模型、不需GPU服务器、不用调参数。直接用智谱官方提供的在线API(免费额度够新手玩一周):
python main.py \ --device-id 1234567890ABCDEF \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"your_api_key_here:去 https://bigmodel.cn 注册账号,进入“API密钥”页面创建一个--device-id:替换成你adb devices查到的ID- 最后那句中文指令,就是你要AI执行的任务
第一次运行时,你会看到:
- 终端滚动输出“正在截图…”“正在OCR识别…”“规划动作:点击搜索框…”
- 手机屏幕实时响应:自动亮屏→解锁→打开抖音→点搜索→输入ID→点关注
- 成功后终端显示
Task completed successfully
4. 实用技巧:让AI更听话、更安全、更省心
刚跑通不等于会用好。这几个技巧,能帮你避开90%的常见坑。
4.1 指令怎么写才有效?记住这三条铁律
| 错误写法 | 正确写法 | 为什么? |
|---|---|---|
| “我要买耳机” | “打开京东,搜索‘索尼WH-1000XM5’,加入购物车” | AI不理解模糊需求,必须明确APP名+动作+对象 |
| “点那个红色按钮” | “点击屏幕右下角‘立即购买’按钮” | AI靠文字定位,不是靠颜色;描述位置+文字最可靠 |
| “帮我看看天气” | “打开墨迹天气APP,截图当前首页” | 指令必须包含“启动哪个APP”和“执行什么动作”,不能只说目的 |
小技巧:不确定界面元素叫什么?先用adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png截图,用手机相册放大看按钮文字。
4.2 遇到问题?先查这三类错误码
| 报错信息 | 常见原因 | 速查方案 |
|---|---|---|
Connection refused | 云服务URL填错 / API Key无效 | 检查--base-url是否为https://open.bigmodel.cn/api/paas/v4,Key是否复制完整(32位) |
Device not found | 手机未连上 / ADB Keyboard未启用 | 重新运行adb devices;进手机设置确认输入法已切为ADB Keyboard |
No response after 60s | 屏幕锁屏 / APP启动慢 / 网络延迟高 | 手动点亮手机屏幕;加参数--timeout 120延长等待时间 |
4.3 进阶玩法:不用写代码也能批量操作
想每天自动刷10个APP领红包?不用改Python,用内置的交互模式:
python main.py --device-id 1234567890ABCDEF --base-url https://open.bigmodel.cn/api/paas/v4 --apikey your_key回车后进入交互式终端,直接输入:
> 打开拼多多,点首页“天天领现金” > 等待5秒,截图保存为 pdd_cash.png > 打开支付宝,搜索“蚂蚁森林”,点“偷能量”每条指令独立执行,失败不中断后续,适合做日常自动化脚本。
5. 真实场景案例:从入门到解决实际问题
光会“打开抖音”没用。下面这些,才是它真正改变你日常的用法。
5.1 场景一:电商比价党福音
痛点:同一款商品,在京东、淘宝、拼多多价格不同,人工比价耗时10分钟。
指令:
“依次打开淘宝、京东、拼多多,搜索‘小米手环9’,截图各平台首条商品的价格区域,保存为 taobao_price.png, jd_price.png, pdd_price.png”
效果:AI自动切换三个APP,精准截图价格标签区域,生成三张图放在当前文件夹。你只需对比图片,30秒决策。
5.2 场景二:新媒体运营提效
痛点:每天要给5个不同小红书账号发同一篇文案,手动复制粘贴易出错。
指令:
“打开小红书,登录账号A,发布新笔记,标题‘今日AI工具速览’,正文粘贴文件 notes.txt 内容,添加话题#AI工具 #效率提升,发布;再登录账号B,重复相同操作”
效果:AI自动处理多账号切换、文本读取、话题添加,全程无遗漏。notes.txt可提前用Notepad写好。
5.3 场景三:老人手机远程协助
痛点:父母手机总弹出“存储空间不足”,你不在身边,电话说不清怎么清理。
操作:
- 让父母连上家庭WiFi,你用电脑执行
adb connect 192.168.1.100:5555 - 运行指令:
“打开设置,进入‘存储’页面,点击‘清理建议’,点击‘清理’按钮,等待完成,截图保存为 clean_result.png”
效果:你远程发出指令,父母手机自动执行清理,最后把结果图发回给你确认。比视频指导快10倍。
6. 总结:你已经掌握了什么,接下来可以做什么
回顾一下,你刚刚完成了:
在普通电脑上装好控制环境
让安卓手机变成可编程设备
用一行命令调用专业级AI模型
看懂AI如何把一句话变成一连串精准操作
解决了比价、发帖、远程协助等真实问题
这不是终点,而是起点。Open-AutoGLM 的 GitHub 仓库里,还藏着更多能力:
examples/文件夹里有现成的批量任务脚本(比如自动给100个微信好友发节日祝福)config/下可修改系统提示词,让AI更懂你的行业话术(比如加一句“你是一名资深电商运营,所有回复需符合平台规则”)- 支持接入你自己的vLLM服务器,把模型部署在本地显卡上,彻底摆脱网络依赖
最重要的是:它开源、免费、文档全、社区活跃。遇到问题,去GitHub Issues里搜关键词,大概率已有解决方案;想贡献代码,PR随时欢迎。
现在,合上这篇教程,拿起你的手机和电脑——试试输入第一句:“打开知乎,搜索‘如何学习Python’,保存前三条回答标题”。30秒后,答案就在你面前。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。