news 2026/4/23 18:38:36

手机自动化新玩法:Open-AutoGLM保姆级教程,轻松实现AI代劳

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手机自动化新玩法:Open-AutoGLM保姆级教程,轻松实现AI代劳

手机自动化新玩法:Open-AutoGLM保姆级教程,轻松实现AI代劳

你有没有过这样的时刻——
想抢一张演唱会门票,却卡在验证码页面反复刷新;
想给客户发个带截图的微信说明,结果一边切屏一边打字手忙脚乱;
深夜改PPT,突然想起要查一个竞品App的最新功能,点开又退出,来回五次还没找到入口……

这些“手指比脑子快”的日常操作,其实早该交给AI了。
今天要介绍的Open-AutoGLM,不是另一个需要写代码、调参数、配环境的AI项目,而是一个真正能“听懂人话、看懂屏幕、动手干活”的手机端智能助理框架。它由智谱AI开源,名字里的“Phone”不是修饰词,是它的主战场——你的安卓手机。

不用Root、不依赖云桌面、不强制用特定品牌手机。只要你会连WiFi、会开开发者模式,15分钟内,就能让AI替你打开小红书、搜索美食、点进博主主页、完成关注——全程自动,一气呵成。

这不是概念演示,也不是实验室Demo。它是可部署、可调试、可定制的真实工具。本文将带你从零开始,不跳步、不省略、不假设前置知识,手把手完成本地控制端搭建、真机连接、模型服务对接,最后用一条自然语言指令,亲眼见证AI接管你的手机。

准备好了吗?我们这就出发。

1. 先搞清楚:Open-AutoGLM到底是什么

很多人看到“AI Agent”“手机自动化”,第一反应是“这得刷机吧?”“是不是只能跑在模拟器上?”“模型会不会特别吃显卡?”

先划重点:Open-AutoGLM 是一个轻量级、面向真实使用场景的手机端AI代理框架,核心目标不是炫技,而是把“重复性手机操作”变成一句话的事。

它由三部分协同工作:

  • 视觉感知层:通过ADB实时截取手机屏幕画面,送入视觉语言模型(VLM),让AI“看见”当前界面——按钮在哪、文字写了什么、图标长什么样、输入框是否激活;
  • 意图理解层:接收你输入的自然语言指令(比如“帮我把微信里昨天收到的PDF文件转发到钉钉工作群”),解析动作目标、对象、上下文;
  • 执行控制层:生成具体操作序列(tap坐标X/Y、swipe滑动路径、input输入文本、back返回等),再通过ADB命令精准下发到设备。

整个过程无需你写一行UI自动化脚本,也不用提前录制操作流程。它像一个有经验的同事,你告诉TA要做什么,TA自己观察、思考、动手,遇到登录页或支付确认弹窗时,还会主动暂停,等你人工点一下“确定”。

它支持真机(Android 7.0+)和主流模拟器
不要求手机Root,仅需开启USB调试
模型可本地部署(9B小模型,RTX 4090单卡可跑),也支持调用智谱BigModel或魔搭API
内置敏感操作防护机制,所有涉及账号、支付、隐私设置的操作,必须人工二次确认
提供WiFi远程连接能力,手机不用插线也能被控制

一句话总结:Open-AutoGLM 把“手机操作”这件事,从“手动执行”变成了“自然语言委托”。

2. 硬件与环境准备:3步搞定基础条件

别被“ADB”“vLLM”“视觉语言模型”吓住。这一节只讲你需要做的三件事,每一步都有明确操作指引和验证方式。不需要懂原理,只要按顺序做对,就能进入下一步。

2.1 准备一台能连网的电脑(Windows/macOS均可)

  • 推荐系统:Windows 10/11 或 macOS Sonoma 及以上
  • Python 版本:Python 3.10 或 3.11(注意:3.12暂未全面适配,建议避开)
  • 磁盘空间:预留至少5GB(用于下载模型、依赖和缓存)

小贴士:如果你从未装过Python,推荐直接去 python.org 下载安装包,勾选“Add Python to PATH”选项,安装完在终端输入python --version,看到类似Python 3.10.12即表示成功。

2.2 配置ADB工具:让电脑“认出”你的手机

ADB(Android Debug Bridge)是Android官方提供的调试桥接工具,Open-AutoGLM正是靠它来截图、点击、输入。配置它,只需两步:

Windows 用户:
  1. 去 Android SDK Platform-Tools 页面 下载ZIP包
  2. 解压到一个固定路径,例如C:\platform-tools
  3. Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
  4. 打开新终端(CMD或PowerShell),输入adb version,若显示版本号(如Android Debug Bridge version 1.0.41),说明配置成功
macOS 用户:
  1. 同样下载 platform-tools ZIP,解压到~/Downloads/platform-tools
  2. 打开终端,运行以下命令(只需一次):
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  1. 输入adb version验证

注意:如果提示command not found: adb,请检查路径是否拼写正确,或尝试重启终端。

2.3 设置安卓手机:开启“被操控权限”

这是最关键的一步,但操作极简单,全程在手机设置里点几下:

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击「版本号」7次 → 弹出“您现在处于开发者模式”提示

  2. 开启USB调试
    返回「设置」→「系统」→「开发者选项」→ 找到并开启「USB调试」
    (部分国产机型路径略有不同,如小米是「更多设置」→「开发者选项」)

  3. 安装并启用ADB Keyboard(重要!)

    • 前往 GitHub Releases 页面 下载最新版ADBKeyboard.apk
    • 用数据线将手机连接电脑,在手机上允许“安装未知来源应用”
    • 安装完成后,进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard
    • 此步骤确保AI能向任意输入框发送文字(否则只能点击,无法打字)

验证是否成功:
手机用USB线连电脑 → 终端输入adb devices→ 若看到一串设备ID后跟着device(而非unauthorized),说明连接成功。
如果显示unauthorized,请在手机上弹出的授权窗口中点“允许”。

3. 部署控制端:5分钟跑通本地代码

现在,你的电脑已认识手机,手机也准备好被指挥。接下来,我们要把Open-AutoGLM的“大脑”——控制端代码,部署到本地。

3.1 克隆代码并安装依赖

打开终端(Windows用CMD/PowerShell,macOS用Terminal),依次执行:

# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含核心库与ADB通信模块) pip install -r requirements.txt pip install -e .

说明:pip install -e .表示以“开发模式”安装,后续修改代码可直接生效,无需重复安装。

3.2 连接你的设备(USB or WiFi)

Open-AutoGLM支持两种连接方式,推荐新手先用USB,稳定无干扰。

USB直连(推荐入门):

确保手机已用USB线连接,并在终端运行:

adb devices

输出应类似:

List of devices attached 8A2Y0XXXXXXX device

其中8A2Y0XXXXXXX就是你的设备ID,记下来,后面要用。

WiFi远程连接(适合进阶/多设备):
  1. 先用USB线连接,运行:
adb tcpip 5555
  1. 断开USB线,确保手机和电脑在同一WiFi下
  2. 查看手机IP(设置→关于手机→状态信息→IP地址),假设为192.168.1.100
  3. 运行:
adb connect 192.168.1.100:5555
  1. 再次adb devices,应看到192.168.1.100:5555设备在线

小技巧:WiFi连接后,你甚至可以把手机放在桌上,用笔记本远程操控,彻底解放双手。

4. 模型服务对接:三种选择,总有一款适合你

Open-AutoGLM本身不包含大模型,它是一个“调度中枢”,需要对接一个能理解图文、生成操作指令的视觉语言模型。目前有三种主流接入方式,按易用性排序:

4.1 方式一:调用智谱BigModel API(最快上手,无需本地GPU)

适合:想立刻体验效果、没有高性能显卡、不介意网络请求延迟
成本:免费额度充足(新用户送100万Token),日常测试完全够用

操作步骤:

  1. 访问 智谱AI开放平台,注册账号 → 进入「API Key管理」→ 创建新Key
  2. 在终端运行(替换<YOUR_API_KEY><DEVICE_ID>):
python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key <YOUR_API_KEY> \ "打开小红书,搜索'云南咖啡',进入第一个笔记,点赞并收藏"

优势:零部署、免维护、模型持续更新
注意:需联网,首次响应稍慢(约3–5秒),但后续操作流畅

4.2 方式二:调用魔搭ModelScope API(中文优化好,免费额度高)

适合:偏好国内服务、需要更高并发、对中文界面理解要求高

操作步骤:

  1. 访问 ModelScope官网,注册登录 → 进入「个人中心」→「API Keys」→ 创建Key
  2. 运行命令(注意模型名格式):
python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --api-key <YOUR_MODELSCOPE_KEY> \ "打开美团,搜‘海底捞’,查看最近一家门店的营业时间"

优势:专为中文App优化,对微信、淘宝、抖音等界面识别准确率高
提示:魔搭对新用户更友好,常有活动赠送额外Token

4.3 方式三:本地部署AutoGLM-Phone-9B(完全离线,响应最快)

适合:重视隐私、需高频调用、有NVIDIA显卡(RTX 3090/4090推荐)

操作步骤:

  1. 安装vLLM(推荐2.4.0+):
pip install vllm
  1. 启动本地模型服务(需约12GB显存):
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}"
  1. 启动成功后,服务地址为http://localhost:8000/v1
  2. 运行控制命令:
python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开知乎,搜索‘大模型Agent’,点开热度最高的一篇,复制文章标题"

优势:毫秒级响应、100%数据本地化、可无限次调用
🔧 调优提示:若显存不足,可加--gpu-memory-utilization 0.9限制显存占用

5. 实战演练:用一句话,让AI完成三步操作

理论讲完,现在来一场真刀真枪的实战。我们将用最简单的指令,完成一个典型多步骤任务:打开微信 → 找到“文件传输助手” → 发送一条测试消息

5.1 执行命令

确保手机已解锁、微信已安装且登录,然后在Open-AutoGLM项目根目录下运行:

python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key your_api_key_here \ "打开微信,找到文件传输助手,发送消息:AI代劳测试成功!"

5.2 观察发生了什么

你会看到终端实时打印日志,类似这样:

[INFO] 截图已保存至 screenshots/screenshot_001.png [INFO] 调用模型分析界面... [INFO] 检测到微信App图标,执行点击 [INFO] 界面变化:进入微信主界面,检测到搜索框 [INFO] 检测到“文件传输助手”,执行点击 [INFO] 进入聊天窗口,检测到输入框,调用ADB Keyboard输入文本 [INFO] 输入完成,检测到“发送”按钮,执行点击 [SUCCESS] 任务完成!共执行4步操作,耗时8.2秒

同时,你的手机屏幕上会真实发生:
① 自动点亮屏幕 → ② 打开微信 → ③ 滑动找到“文件传输助手”并点击 → ④ 在输入框中逐字打出“AI代劳测试成功!” → ⑤ 点击发送按钮。

这不是模拟,不是录屏,是AI在实时“看”你的屏幕、“想”下一步该做什么、“动”手指完成操作。

5.3 你可以立刻尝试的5个实用指令

别只停留在“测试”,马上试试这些真实场景指令(复制粘贴即可):

  • "打开淘宝,搜索‘无线充电宝’,按销量排序,截图前三个商品价格"
  • "打开高德地图,输入目的地‘北京南站’,选择地铁方案,截图路线图"
  • "打开微博,搜索‘今日热点’,点开阅读量最高的那条,复制链接"
  • "打开设置,进入‘电池’,查看当前剩余电量百分比,截图"
  • "打开小红书,搜索‘健身餐食谱’,进入第一个笔记,长按图片保存到相册"

你会发现,越贴近真实口语的指令,效果越好。不必说“点击坐标(320,650)”,就说“点开那个蓝色的‘立即购买’按钮”——AI会自己找。

6. 常见问题与避坑指南(来自真实踩坑记录)

在上百次实测中,我们整理出新手最常遇到的6个问题及解决方案,帮你绕过所有“卡点”:

❓问题1:adb devices显示unauthorized,但手机没弹窗

原因:USB调试授权被拒绝或未开启
解决:断开USB → 关闭“USB调试” → 再次开启 → 重新连接,手机必弹授权框

❓问题2:运行main.py报错ModuleNotFoundError: No module named 'phone_agent'

原因:未执行pip install -e .或虚拟环境未激活
解决:确认在Open-AutoGLM根目录下 → 激活venv → 重跑pip install -e .

❓问题3:AI一直“看”不到微信图标,卡在首页

原因:手机开启了“应用锁”或“隐私保护”,阻止ADB截屏
解决:进入「设置」→「安全」→ 关闭「应用锁」「隐私空间」等拦截类功能

❓问题4:输入文字时,光标乱跳或只输一半

原因:ADB Keyboard未设为默认输入法,或系统输入法抢占焦点
解决:严格按2.3节操作,确保「语言与输入法」中“当前输入法”显示为ADB Keyboard

❓问题5:WiFi连接后adb devices显示offline

原因:手机休眠导致ADB断连
解决:进入「开发者选项」→ 开启「不锁定屏幕」+「保持USB调试连接」

❓问题6:调用BigModel API报错401 Unauthorized

原因:API Key错误或未开通autoglm-phone模型权限
解决:登录智谱后台 → 进入「模型服务」→ 确认已开通autoglm-phone权限 → 复制全新Key

终极建议:首次运行,务必用USB线 + BigModel API组合,成功率最高。熟悉流程后再切换其他方式。

7. 进阶玩法:不只是“点一点”,还能“想一想”

Open-AutoGLM 的潜力远不止于执行单条指令。当你熟悉基础操作后,可以尝试这些提升效率的进阶用法:

7.1 批量任务:用Python脚本驱动一连串操作

创建batch_task.py

from phone_agent.main import run_single_task # 定义任务列表 tasks = [ "打开小红书,搜索'AI工具推荐',截图前两条笔记", "打开知乎,搜索'手机自动化',点开回答数最多的问题,复制摘要", "打开设置,进入'应用管理',找到微信,截图其存储占用" ] # 依次执行 for i, task in enumerate(tasks, 1): print(f"\n--- 执行第{i}个任务:{task} ---") run_single_task( device_id="8A2Y0XXXXXXX", base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", api_key="your_key", instruction=task, max_steps=15 )

运行python batch_task.py,AI将自动完成整套流水线。

7.2 人工接管:在关键节点“插手”,保障安全

当指令涉及账号、支付、隐私设置时,Open-AutoGLM会自动暂停并打印:

[PAUSE] 检测到登录页面,请手动完成登录,完成后按回车继续...

你只需在手机上输入密码、点“登录”,再回到终端按回车,AI将继续后续操作。这种“人在环路”设计,既保证自动化效率,又守住安全底线。

7.3 自定义操作逻辑:扩展你的专属能力

Open-AutoGLM 支持在phone_agent/operations/下添加自定义操作函数。例如,你想让AI“自动截长图”:

# phone_agent/operations/screenshot_long.py def screenshot_long(conn, scroll_times=3): """滚动截取长图""" conn.swipe(500, 1500, 500, 500) # 先下滑 # ... 实现分段截图+拼接逻辑 return "long_screenshot.png"

然后在指令中直接说:“给我截一张微信公众号文章的长图”,AI就能调用你写的函数。

这意味着:Open-AutoGLM 不是封闭黑盒,而是一个可生长的自动化基座。

8. 总结:为什么Open-AutoGLM值得你花这15分钟

回顾整个过程,你只做了这几件事:
✔ 开启手机开发者模式和USB调试
✔ 安装ADB并配置环境变量
✔ 克隆代码、安装依赖、连接设备
✔ 选一种模型服务、填入API Key、输入一句自然语言

但你获得的,是一个能真正理解你意图、观察你屏幕、代替你操作的AI同事。它不取代你的思考,而是把那些“明明知道怎么做,却懒得动手”的碎片时间,还给你。

  • 对普通用户:它让抢票、比价、查信息、发通知,从“手指疲劳”变成“张嘴就来”;
  • 对开发者:它提供了一套开箱即用的手机Agent开发范式,你可以基于它快速构建垂直场景工具(如“电商客服辅助系统”“App兼容性测试机器人”);
  • 对研究者:它是一个透明、可调试、可扩展的多模态Agent实验平台,视觉理解、任务规划、动作执行模块全部开源。

技术终将回归人的需求。Open-AutoGLM 的价值,不在于它用了多大的模型或多新的算法,而在于它第一次让“用说话控制手机”这件事,变得如此简单、可靠、触手可及。

现在,你的手机已经准备好了。
你,准备好下指令了吗?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 8:23:23

人像占比不过小就行,BSHM镜像适应性强

人像占比不过小就行&#xff0c;BSHM镜像适应性强 你有没有遇到过这样的情况&#xff1a;想给一张合影换背景&#xff0c;结果AI只抠出了半张脸&#xff1b;或者处理一张远距离抓拍的人像&#xff0c;边缘毛躁得像被撕开的纸&#xff1f;很多抠图工具对人像大小、姿态、光照特…

作者头像 李华
网站建设 2026/4/23 8:21:28

MinerU表格识别不全?structeqtable模型启用指南

MinerU表格识别不全&#xff1f;structeqtable模型启用指南 你是不是也遇到过这样的问题&#xff1a;用MinerU提取PDF里的表格时&#xff0c;结果只出来几行文字&#xff0c;或者表格结构完全错乱&#xff0c;甚至整张表直接消失&#xff1f;明明PDF里清清楚楚的三列表格&…

作者头像 李华
网站建设 2026/4/23 11:19:41

零基础入门语音情感识别:用科哥镜像轻松实现9种情绪分类

零基础入门语音情感识别&#xff1a;用科哥镜像轻松实现9种情绪分类 1. 引言&#xff1a;让机器听懂你的情绪 你有没有想过&#xff0c;一段简单的语音背后&#xff0c;其实藏着丰富的情感信息&#xff1f;愤怒、快乐、悲伤、惊讶……这些情绪不仅体现在文字内容上&#xff0…

作者头像 李华
网站建设 2026/4/23 9:56:18

罐子塑料树枝纸张玻璃聚乙烯检测数据集VOC+YOLO格式8797张9类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)&#xff1a;8797标注数量(xml文件个数)&#xff1a;8797标注数量(txt文件个数)&#xff1a;8797标注类别…

作者头像 李华
网站建设 2026/4/23 9:58:34

Qwen模型并发能力不足?多实例负载均衡部署方案

Qwen模型并发能力不足&#xff1f;多实例负载均衡部署方案 1. 为什么儿童向图片生成需要特别关注并发能力 你有没有试过给一群小朋友同时演示“小熊穿宇航服”“小兔子开飞船”这类可爱动物图片的生成过程&#xff1f;当十多个孩子围在屏幕前&#xff0c;每人喊一个动物名字&…

作者头像 李华