news 2026/4/23 16:00:40

小白也能懂的PhoneAgent:Open-AutoGLM保姆级教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小白也能懂的PhoneAgent:Open-AutoGLM保姆级教程

小白也能懂的PhoneAgent:Open-AutoGLM保姆级教程

你有没有想过,以后手机不用自己点——说一句“帮我订一杯附近星巴克的冰美式”,它就自动打开APP、选门店、加冰、下单、付款?这不是科幻电影,而是今天就能上手的现实。Open-AutoGLM 就是这样一套让手机真正“听懂人话、看懂界面、动手做事”的开源框架。它不依赖定制硬件,不强制用特定手机,只要一台安卓真机+一台普通电脑,照着这篇教程走完,30分钟内你就能让AI替你刷小红书、比价下单、甚至帮你在抖音关注博主。

别被“多模态”“视觉语言模型”这些词吓退。这篇文章全程不用术语堆砌,不讲原理推导,只说:你该装什么、连什么、输哪行命令、遇到报错怎么救、第一次成功时看到什么画面。哪怕你上次写代码还是在Excel里敲过=SUM(),也能跟着做完。


1. 它到底能干什么?先看三个真实操作

在动手前,先建立一个具体印象:这不是“语音助手”,也不是“截图识别工具”,而是一个能持续观察屏幕+理解当前状态+自主决策下一步动作+精准执行点击/输入/滑动的完整闭环系统。

1.1 一句话完成跨APP流程

指令:

“打开小红书搜‘上海周末咖啡馆’,截第一张图发微信给文件传输助手”

实际发生的事:

  • AI先识别当前是否在桌面 → 启动小红书
  • 进入后识别搜索框位置 → 点击并输入文字
  • 等待结果加载 → 找到首张图片 → 截图
  • 自动切回微信 → 打开文件传输助手 → 粘贴图片 → 发送

全程无需你碰手机,电脑端只输入这一句话。

1.2 敏感操作有人把关

指令:

“登录淘宝账号,收货地址改成浦东新区张江路1号”

执行中,当AI检测到“登录”“密码输入框”“支付确认页”等高风险节点,会自动暂停,弹出提示:

【需人工确认】检测到登录页面,是否继续?(y/n)

你按y才往下走,按n立刻停止——安全不是口号,是写进流程里的默认开关。

1.3 远程也能操控,像修电脑一样修手机

你出差在外,朋友手机卡在某个APP更新失败页。他拍张当前屏幕发给你,你用自己电脑连上他的手机WiFi,运行一行命令:

python main.py --device-id 192.168.1.105:5555 "点‘重试’按钮"

他的手机屏幕立刻响应。没有远程控制软件,不装任何第三方APP,纯靠ADB底层协议。

这三件事,就是Open-AutoGLM区别于所有其他AI工具的核心:它把手机当成可编程的实体设备,而不是只能对话的聊天窗口


2. 准备工作:三件套齐了就能开工

别急着敲代码。先确认这三样东西你手边都有,缺一不可。我们按“最省事路径”列,不绕弯子。

2.1 你的电脑要满足什么条件?

项目要求怎么查?
操作系统Windows 10/11 或 macOS Monterey (12.0) 及以上Win:设置→系统→关于;Mac:苹果菜单→关于本机
Python版本必须是 Python 3.10、3.11 或 3.12(3.13暂不支持)打开终端/命令提示符,输入python --version
硬盘空间至少留出 5GB 空闲空间(后续模型可放别处)右键“此电脑”或“访达”看剩余容量

注意:如果你用的是Mac M系列芯片(M1/M2/M3),请确保已安装Rosetta 2(系统自带,无需额外操作)。若用Windows,不要用Microsoft Store安装的Python,去官网下载.exe安装包,勾选“Add Python to PATH”。

2.2 你的安卓手机必须做这三步设置

很多失败案例,90%卡在这一步。请严格按顺序操作,每步完成后验证:

  1. 开启开发者模式

    • 设置 → 关于手机 → 连续点击“版本号”7次
    • 弹出“您现在处于开发者模式”提示即成功
  2. 开启USB调试

    • 返回设置首页 → 系统和更新 → 开发者选项 → 打开“USB调试”
    • 部分华为/小米机型还需勾选“USB调试(安全设置)”
  3. 安装并启用ADB Keyboard(关键!)

    • 下载地址:https://github.com/zai-org/Open-AutoGLM/releases/download/v0.1.0/adb-keyboard.apk
    • 在手机上安装该APK(允许“未知来源应用”安装)
    • 设置 → 系统管理 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”

验证是否成功:用USB线连接手机和电脑 → 打开终端 → 输入adb devices→ 若显示一串字符+“device”,说明已识别。

2.3 ADB工具:一行命令搞定安装

不用手动下载、解压、配环境变量。我们用最简方式:

  • Windows用户
    下载 ADB All-in-One 工具包,解压到C:\adb,然后以管理员身份运行以下命令:

    setx /M PATH "%PATH%;C:\adb"
  • macOS用户
    打开终端,粘贴运行:

    brew install android-platform-tools

验证:终端输入adb version,看到类似Android Debug Bridge version 1.0.41即成功。


3. 三步部署:从克隆代码到第一次运行

现在开始真正动手。全程在电脑终端(Windows用CMD/PowerShell,Mac用Terminal)操作,复制粘贴即可。

3.1 下载并安装控制端代码

# 1. 克隆仓库(约20秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染主Python) python -m venv venv venv\Scripts\activate # Windows # 或 source venv/bin/activate # macOS # 3. 安装依赖(约2分钟,网络好可更快) pip install -r requirements.txt pip install -e .

提示:如果pip install报错“no module named setuptools”,先运行pip install --upgrade pip setuptools wheel再重试。

3.2 连接你的手机(USB or WiFi)

USB直连(新手首选,稳定不掉线)
adb devices # 正常输出示例: # List of devices attached # 1234567890ABCDEF device

记下那一串字母数字组合(如1234567890ABCDEF),这就是你的--device-id

WiFi无线连接(适合长期使用)
# 第一次必须用USB线连接后执行 adb tcpip 5555 # 拔掉USB线,查看手机WiFi IP(设置→Wi-Fi→点当前网络→IP地址) # 假设IP是 192.168.1.105,则运行: adb connect 192.168.1.105:5555

验证:adb devices应显示192.168.1.105:5555 device

3.3 调用云端模型服务(零配置最快方案)

你不需要自己下载20GB大模型、不需GPU服务器、不用调参数。直接用智谱官方提供的在线API(免费额度够新手玩一周):

python main.py \ --device-id 1234567890ABCDEF \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • your_api_key_here:去 https://bigmodel.cn 注册账号,进入“API密钥”页面创建一个
  • --device-id:替换成你adb devices查到的ID
  • 最后那句中文指令,就是你要AI执行的任务

第一次运行时,你会看到:

  • 终端滚动输出“正在截图…”“正在OCR识别…”“规划动作:点击搜索框…”
  • 手机屏幕实时响应:自动亮屏→解锁→打开抖音→点搜索→输入ID→点关注
  • 成功后终端显示Task completed successfully

4. 实用技巧:让AI更听话、更安全、更省心

刚跑通不等于会用好。这几个技巧,能帮你避开90%的常见坑。

4.1 指令怎么写才有效?记住这三条铁律

错误写法正确写法为什么?
“我要买耳机”“打开京东,搜索‘索尼WH-1000XM5’,加入购物车”AI不理解模糊需求,必须明确APP名+动作+对象
“点那个红色按钮”“点击屏幕右下角‘立即购买’按钮”AI靠文字定位,不是靠颜色;描述位置+文字最可靠
“帮我看看天气”“打开墨迹天气APP,截图当前首页”指令必须包含“启动哪个APP”和“执行什么动作”,不能只说目的

小技巧:不确定界面元素叫什么?先用adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png截图,用手机相册放大看按钮文字。

4.2 遇到问题?先查这三类错误码

报错信息常见原因速查方案
Connection refused云服务URL填错 / API Key无效检查--base-url是否为https://open.bigmodel.cn/api/paas/v4,Key是否复制完整(32位)
Device not found手机未连上 / ADB Keyboard未启用重新运行adb devices;进手机设置确认输入法已切为ADB Keyboard
No response after 60s屏幕锁屏 / APP启动慢 / 网络延迟高手动点亮手机屏幕;加参数--timeout 120延长等待时间

4.3 进阶玩法:不用写代码也能批量操作

想每天自动刷10个APP领红包?不用改Python,用内置的交互模式:

python main.py --device-id 1234567890ABCDEF --base-url https://open.bigmodel.cn/api/paas/v4 --apikey your_key

回车后进入交互式终端,直接输入:

> 打开拼多多,点首页“天天领现金” > 等待5秒,截图保存为 pdd_cash.png > 打开支付宝,搜索“蚂蚁森林”,点“偷能量”

每条指令独立执行,失败不中断后续,适合做日常自动化脚本。


5. 真实场景案例:从入门到解决实际问题

光会“打开抖音”没用。下面这些,才是它真正改变你日常的用法。

5.1 场景一:电商比价党福音

痛点:同一款商品,在京东、淘宝、拼多多价格不同,人工比价耗时10分钟。
指令

“依次打开淘宝、京东、拼多多,搜索‘小米手环9’,截图各平台首条商品的价格区域,保存为 taobao_price.png, jd_price.png, pdd_price.png”

效果:AI自动切换三个APP,精准截图价格标签区域,生成三张图放在当前文件夹。你只需对比图片,30秒决策。

5.2 场景二:新媒体运营提效

痛点:每天要给5个不同小红书账号发同一篇文案,手动复制粘贴易出错。
指令

“打开小红书,登录账号A,发布新笔记,标题‘今日AI工具速览’,正文粘贴文件 notes.txt 内容,添加话题#AI工具 #效率提升,发布;再登录账号B,重复相同操作”

效果:AI自动处理多账号切换、文本读取、话题添加,全程无遗漏。notes.txt可提前用Notepad写好。

5.3 场景三:老人手机远程协助

痛点:父母手机总弹出“存储空间不足”,你不在身边,电话说不清怎么清理。
操作

  1. 让父母连上家庭WiFi,你用电脑执行adb connect 192.168.1.100:5555
  2. 运行指令:

“打开设置,进入‘存储’页面,点击‘清理建议’,点击‘清理’按钮,等待完成,截图保存为 clean_result.png”

效果:你远程发出指令,父母手机自动执行清理,最后把结果图发回给你确认。比视频指导快10倍。


6. 总结:你已经掌握了什么,接下来可以做什么

回顾一下,你刚刚完成了:
在普通电脑上装好控制环境
让安卓手机变成可编程设备
用一行命令调用专业级AI模型
看懂AI如何把一句话变成一连串精准操作
解决了比价、发帖、远程协助等真实问题

这不是终点,而是起点。Open-AutoGLM 的 GitHub 仓库里,还藏着更多能力:

  • examples/文件夹里有现成的批量任务脚本(比如自动给100个微信好友发节日祝福)
  • config/下可修改系统提示词,让AI更懂你的行业话术(比如加一句“你是一名资深电商运营,所有回复需符合平台规则”)
  • 支持接入你自己的vLLM服务器,把模型部署在本地显卡上,彻底摆脱网络依赖

最重要的是:它开源、免费、文档全、社区活跃。遇到问题,去GitHub Issues里搜关键词,大概率已有解决方案;想贡献代码,PR随时欢迎。

现在,合上这篇教程,拿起你的手机和电脑——试试输入第一句:“打开知乎,搜索‘如何学习Python’,保存前三条回答标题”。30秒后,答案就在你面前。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:24:29

手把手教学:如何用Nano-Banana制作完美产品部件拆解图

手把手教学:如何用Nano-Banana制作完美产品部件拆解图 你是否曾为产品说明书配图发愁?是否在做工业设计汇报时,反复调整爆炸图的部件间距却总达不到专业级排布效果?是否想快速生成一组风格统一、标注清晰、结构分明的产品拆解图&…

作者头像 李华
网站建设 2026/4/15 16:00:29

CLAP零样本音频分类案例分享:野生动物声学监测真实项目

CLAP零样本音频分类案例分享:野生动物声学监测真实项目 1. 为什么野生动物监测需要“听懂”声音? 在云南高黎贡山的原始森林里,科研人员布设了数十个录音设备,每天24小时不间断采集环境声音。这些设备录下的不是风声雨声那么简单…

作者头像 李华
网站建设 2026/4/23 14:30:22

opencode部署卡显存?低成本GPU优化实战案例解析

opencode部署卡显存?低成本GPU优化实战案例解析 1. 问题现场:为什么你的opencode跑不起来? 你兴冲冲地执行 docker run opencode-ai/opencode,终端界面亮了,TUI菜单也出来了——可一选“代码补全”或“项目规划”&am…

作者头像 李华
网站建设 2026/4/22 20:40:08

Node-Red魔改MC协议组件实战:三菱FX5U PLC数据采集与点表配置优化

1. 三菱FX5U PLC数据采集方案选型 在工业自动化领域,三菱FX5U系列PLC凭借其紧凑设计和强大性能,成为中小型项目的热门选择。传统的数据采集方式通常需要编写复杂的通信代码,而Node-Red的魔改MC协议组件彻底改变了这一局面。这个方案特别适合产…

作者头像 李华