手机自动化新玩法：Open-AutoGLM保姆级教程，轻松实现AI代劳-深圳市維司達科技有限公司

手机自动化新玩法：Open-AutoGLM保姆级教程，轻松实现AI代劳

你有没有过这样的时刻——
想抢一张演唱会门票，却卡在验证码页面反复刷新；
想给客户发个带截图的微信说明，结果一边切屏一边打字手忙脚乱；
深夜改PPT，突然想起要查一个竞品App的最新功能，点开又退出，来回五次还没找到入口……

这些“手指比脑子快”的日常操作，其实早该交给AI了。
今天要介绍的Open-AutoGLM，不是另一个需要写代码、调参数、配环境的AI项目，而是一个真正能“听懂人话、看懂屏幕、动手干活”的手机端智能助理框架。它由智谱AI开源，名字里的“Phone”不是修饰词，是它的主战场——你的安卓手机。

不用Root、不依赖云桌面、不强制用特定品牌手机。只要你会连WiFi、会开开发者模式，15分钟内，就能让AI替你打开小红书、搜索美食、点进博主主页、完成关注——全程自动，一气呵成。

这不是概念演示，也不是实验室Demo。它是可部署、可调试、可定制的真实工具。本文将带你从零开始，不跳步、不省略、不假设前置知识，手把手完成本地控制端搭建、真机连接、模型服务对接，最后用一条自然语言指令，亲眼见证AI接管你的手机。

准备好了吗？我们这就出发。

1. 先搞清楚：Open-AutoGLM到底是什么

很多人看到“AI Agent”“手机自动化”，第一反应是“这得刷机吧？”“是不是只能跑在模拟器上？”“模型会不会特别吃显卡？”

先划重点：Open-AutoGLM 是一个轻量级、面向真实使用场景的手机端AI代理框架，核心目标不是炫技，而是把“重复性手机操作”变成一句话的事。

它由三部分协同工作：

视觉感知层：通过ADB实时截取手机屏幕画面，送入视觉语言模型（VLM），让AI“看见”当前界面——按钮在哪、文字写了什么、图标长什么样、输入框是否激活；
意图理解层：接收你输入的自然语言指令（比如“帮我把微信里昨天收到的PDF文件转发到钉钉工作群”），解析动作目标、对象、上下文；
执行控制层：生成具体操作序列（tap坐标X/Y、swipe滑动路径、input输入文本、back返回等），再通过ADB命令精准下发到设备。

整个过程无需你写一行UI自动化脚本，也不用提前录制操作流程。它像一个有经验的同事，你告诉TA要做什么，TA自己观察、思考、动手，遇到登录页或支付确认弹窗时，还会主动暂停，等你人工点一下“确定”。

它支持真机（Android 7.0+）和主流模拟器
不要求手机Root，仅需开启USB调试
模型可本地部署（9B小模型，RTX 4090单卡可跑），也支持调用智谱BigModel或魔搭API
内置敏感操作防护机制，所有涉及账号、支付、隐私设置的操作，必须人工二次确认
提供WiFi远程连接能力，手机不用插线也能被控制

一句话总结：Open-AutoGLM 把“手机操作”这件事，从“手动执行”变成了“自然语言委托”。

2. 硬件与环境准备：3步搞定基础条件

别被“ADB”“vLLM”“视觉语言模型”吓住。这一节只讲你需要做的三件事，每一步都有明确操作指引和验证方式。不需要懂原理，只要按顺序做对，就能进入下一步。

2.1 准备一台能连网的电脑（Windows/macOS均可）

推荐系统：Windows 10/11 或 macOS Sonoma 及以上
Python 版本：Python 3.10 或 3.11（注意：3.12暂未全面适配，建议避开）
磁盘空间：预留至少5GB（用于下载模型、依赖和缓存）

小贴士：如果你从未装过Python，推荐直接去 python.org 下载安装包，勾选“Add Python to PATH”选项，安装完在终端输入python --version，看到类似Python 3.10.12即表示成功。

2.2 配置ADB工具：让电脑“认出”你的手机

ADB（Android Debug Bridge）是Android官方提供的调试桥接工具，Open-AutoGLM正是靠它来截图、点击、输入。配置它，只需两步：

Windows 用户：

去 Android SDK Platform-Tools 页面下载ZIP包
解压到一个固定路径，例如C:\platform-tools
按Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\platform-tools
打开新终端（CMD或PowerShell），输入adb version，若显示版本号（如Android Debug Bridge version 1.0.41），说明配置成功

macOS 用户：

同样下载 platform-tools ZIP，解压到~/Downloads/platform-tools
打开终端，运行以下命令（只需一次）：

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

输入adb version验证

注意：如果提示command not found: adb，请检查路径是否拼写正确，或尝试重启终端。

2.3 设置安卓手机：开启“被操控权限”

这是最关键的一步，但操作极简单，全程在手机设置里点几下：

开启开发者模式：
进入「设置」→「关于手机」→ 连续点击「版本号」7次 → 弹出“您现在处于开发者模式”提示
开启USB调试：
返回「设置」→「系统」→「开发者选项」→ 找到并开启「USB调试」
（部分国产机型路径略有不同，如小米是「更多设置」→「开发者选项」）
安装并启用ADB Keyboard（重要！）：
- 前往 GitHub Releases 页面下载最新版ADBKeyboard.apk
- 用数据线将手机连接电脑，在手机上允许“安装未知来源应用”
- 安装完成后，进入「设置」→「语言与输入法」→「当前输入法」→ 切换为ADB Keyboard
- 此步骤确保AI能向任意输入框发送文字（否则只能点击，无法打字）

验证是否成功：
手机用USB线连电脑 → 终端输入adb devices→ 若看到一串设备ID后跟着device（而非unauthorized），说明连接成功。
如果显示unauthorized，请在手机上弹出的授权窗口中点“允许”。

3. 部署控制端：5分钟跑通本地代码

现在，你的电脑已认识手机，手机也准备好被指挥。接下来，我们要把Open-AutoGLM的“大脑”——控制端代码，部署到本地。

3.1 克隆代码并安装依赖

打开终端（Windows用CMD/PowerShell，macOS用Terminal），依次执行：

# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境（推荐，避免污染全局Python） python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖（含核心库与ADB通信模块） pip install -r requirements.txt pip install -e .

说明：pip install -e .表示以“开发模式”安装，后续修改代码可直接生效，无需重复安装。

3.2 连接你的设备（USB or WiFi）

Open-AutoGLM支持两种连接方式，推荐新手先用USB，稳定无干扰。

USB直连（推荐入门）：

确保手机已用USB线连接，并在终端运行：

adb devices

输出应类似：

List of devices attached 8A2Y0XXXXXXX device

其中8A2Y0XXXXXXX就是你的设备ID，记下来，后面要用。

WiFi远程连接（适合进阶/多设备）：

先用USB线连接，运行：

adb tcpip 5555

断开USB线，确保手机和电脑在同一WiFi下
查看手机IP（设置→关于手机→状态信息→IP地址），假设为192.168.1.100
运行：

adb connect 192.168.1.100:5555

再次adb devices，应看到192.168.1.100:5555设备在线

小技巧：WiFi连接后，你甚至可以把手机放在桌上，用笔记本远程操控，彻底解放双手。

4. 模型服务对接：三种选择，总有一款适合你

Open-AutoGLM本身不包含大模型，它是一个“调度中枢”，需要对接一个能理解图文、生成操作指令的视觉语言模型。目前有三种主流接入方式，按易用性排序：

4.1 方式一：调用智谱BigModel API（最快上手，无需本地GPU）

适合：想立刻体验效果、没有高性能显卡、不介意网络请求延迟
成本：免费额度充足（新用户送100万Token），日常测试完全够用

操作步骤：

访问智谱AI开放平台，注册账号 → 进入「API Key管理」→ 创建新Key
在终端运行（替换<YOUR_API_KEY>和<DEVICE_ID>）：

python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key <YOUR_API_KEY> \ "打开小红书，搜索'云南咖啡'，进入第一个笔记，点赞并收藏"

优势：零部署、免维护、模型持续更新
注意：需联网，首次响应稍慢（约3–5秒），但后续操作流畅

4.2 方式二：调用魔搭ModelScope API（中文优化好，免费额度高）

适合：偏好国内服务、需要更高并发、对中文界面理解要求高

操作步骤：

访问 ModelScope官网，注册登录 → 进入「个人中心」→「API Keys」→ 创建Key
运行命令（注意模型名格式）：

python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --api-key <YOUR_MODELSCOPE_KEY> \ "打开美团，搜‘海底捞’，查看最近一家门店的营业时间"

优势：专为中文App优化，对微信、淘宝、抖音等界面识别准确率高
提示：魔搭对新用户更友好，常有活动赠送额外Token

4.3 方式三：本地部署AutoGLM-Phone-9B（完全离线，响应最快）

适合：重视隐私、需高频调用、有NVIDIA显卡（RTX 3090/4090推荐）

操作步骤：

安装vLLM（推荐2.4.0+）：

pip install vllm

启动本地模型服务（需约12GB显存）：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}"

启动成功后，服务地址为http://localhost:8000/v1
运行控制命令：

python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ "打开知乎，搜索‘大模型Agent’，点开热度最高的一篇，复制文章标题"

优势：毫秒级响应、100%数据本地化、可无限次调用
🔧 调优提示：若显存不足，可加--gpu-memory-utilization 0.9限制显存占用

5. 实战演练：用一句话，让AI完成三步操作

理论讲完，现在来一场真刀真枪的实战。我们将用最简单的指令，完成一个典型多步骤任务：打开微信 → 找到“文件传输助手” → 发送一条测试消息。

5.1 执行命令

确保手机已解锁、微信已安装且登录，然后在Open-AutoGLM项目根目录下运行：

python main.py \ --device-id 8A2Y0XXXXXXX \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --api-key your_api_key_here \ "打开微信，找到文件传输助手，发送消息：AI代劳测试成功！"

5.2 观察发生了什么

你会看到终端实时打印日志，类似这样：

[INFO] 截图已保存至 screenshots/screenshot_001.png [INFO] 调用模型分析界面... [INFO] 检测到微信App图标，执行点击 [INFO] 界面变化：进入微信主界面，检测到搜索框 [INFO] 检测到“文件传输助手”，执行点击 [INFO] 进入聊天窗口，检测到输入框，调用ADB Keyboard输入文本 [INFO] 输入完成，检测到“发送”按钮，执行点击 [SUCCESS] 任务完成！共执行4步操作，耗时8.2秒

同时，你的手机屏幕上会真实发生：
① 自动点亮屏幕 → ② 打开微信 → ③ 滑动找到“文件传输助手”并点击 → ④ 在输入框中逐字打出“AI代劳测试成功！” → ⑤ 点击发送按钮。

这不是模拟，不是录屏，是AI在实时“看”你的屏幕、“想”下一步该做什么、“动”手指完成操作。

5.3 你可以立刻尝试的5个实用指令

别只停留在“测试”，马上试试这些真实场景指令（复制粘贴即可）：

"打开淘宝，搜索‘无线充电宝’，按销量排序，截图前三个商品价格"
"打开高德地图，输入目的地‘北京南站’，选择地铁方案，截图路线图"
"打开微博，搜索‘今日热点’，点开阅读量最高的那条，复制链接"
"打开设置，进入‘电池’，查看当前剩余电量百分比，截图"
"打开小红书，搜索‘健身餐食谱’，进入第一个笔记，长按图片保存到相册"

你会发现，越贴近真实口语的指令，效果越好。不必说“点击坐标(320,650)”，就说“点开那个蓝色的‘立即购买’按钮”——AI会自己找。

6. 常见问题与避坑指南（来自真实踩坑记录）

在上百次实测中，我们整理出新手最常遇到的6个问题及解决方案，帮你绕过所有“卡点”：

❓问题1：`adb devices`显示`unauthorized`，但手机没弹窗

→原因：USB调试授权被拒绝或未开启
→解决：断开USB → 关闭“USB调试” → 再次开启 → 重新连接，手机必弹授权框

❓问题2：运行`main.py`报错`ModuleNotFoundError: No module named 'phone_agent'`

→原因：未执行pip install -e .或虚拟环境未激活
→解决：确认在Open-AutoGLM根目录下 → 激活venv → 重跑pip install -e .

❓问题3：AI一直“看”不到微信图标，卡在首页

→原因：手机开启了“应用锁”或“隐私保护”，阻止ADB截屏
→解决：进入「设置」→「安全」→ 关闭「应用锁」「隐私空间」等拦截类功能

❓问题4：输入文字时，光标乱跳或只输一半

→原因：ADB Keyboard未设为默认输入法，或系统输入法抢占焦点
→解决：严格按2.3节操作，确保「语言与输入法」中“当前输入法”显示为ADB Keyboard

❓问题5：WiFi连接后`adb devices`显示`offline`

→原因：手机休眠导致ADB断连
→解决：进入「开发者选项」→ 开启「不锁定屏幕」+「保持USB调试连接」

❓问题6：调用BigModel API报错`401 Unauthorized`

→原因：API Key错误或未开通autoglm-phone模型权限
→解决：登录智谱后台 → 进入「模型服务」→ 确认已开通autoglm-phone权限 → 复制全新Key

终极建议：首次运行，务必用USB线 + BigModel API组合，成功率最高。熟悉流程后再切换其他方式。

7. 进阶玩法：不只是“点一点”，还能“想一想”

Open-AutoGLM 的潜力远不止于执行单条指令。当你熟悉基础操作后，可以尝试这些提升效率的进阶用法：

7.1 批量任务：用Python脚本驱动一连串操作

创建batch_task.py：

from phone_agent.main import run_single_task # 定义任务列表 tasks = [ "打开小红书，搜索'AI工具推荐'，截图前两条笔记", "打开知乎，搜索'手机自动化'，点开回答数最多的问题，复制摘要", "打开设置，进入'应用管理'，找到微信，截图其存储占用" ] # 依次执行 for i, task in enumerate(tasks, 1): print(f"\n--- 执行第{i}个任务：{task} ---") run_single_task( device_id="8A2Y0XXXXXXX", base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", api_key="your_key", instruction=task, max_steps=15 )

运行python batch_task.py，AI将自动完成整套流水线。

7.2 人工接管：在关键节点“插手”，保障安全

当指令涉及账号、支付、隐私设置时，Open-AutoGLM会自动暂停并打印：

[PAUSE] 检测到登录页面，请手动完成登录，完成后按回车继续...

你只需在手机上输入密码、点“登录”，再回到终端按回车，AI将继续后续操作。这种“人在环路”设计，既保证自动化效率，又守住安全底线。

7.3 自定义操作逻辑：扩展你的专属能力

Open-AutoGLM 支持在phone_agent/operations/下添加自定义操作函数。例如，你想让AI“自动截长图”：

# phone_agent/operations/screenshot_long.py def screenshot_long(conn, scroll_times=3): """滚动截取长图""" conn.swipe(500, 1500, 500, 500) # 先下滑 # ... 实现分段截图+拼接逻辑 return "long_screenshot.png"

然后在指令中直接说：“给我截一张微信公众号文章的长图”，AI就能调用你写的函数。

这意味着：Open-AutoGLM 不是封闭黑盒，而是一个可生长的自动化基座。

8. 总结：为什么Open-AutoGLM值得你花这15分钟

回顾整个过程，你只做了这几件事：
✔ 开启手机开发者模式和USB调试
✔ 安装ADB并配置环境变量
✔ 克隆代码、安装依赖、连接设备
✔ 选一种模型服务、填入API Key、输入一句自然语言

但你获得的，是一个能真正理解你意图、观察你屏幕、代替你操作的AI同事。它不取代你的思考，而是把那些“明明知道怎么做，却懒得动手”的碎片时间，还给你。

对普通用户：它让抢票、比价、查信息、发通知，从“手指疲劳”变成“张嘴就来”；
对开发者：它提供了一套开箱即用的手机Agent开发范式，你可以基于它快速构建垂直场景工具（如“电商客服辅助系统”“App兼容性测试机器人”）；
对研究者：它是一个透明、可调试、可扩展的多模态Agent实验平台，视觉理解、任务规划、动作执行模块全部开源。

技术终将回归人的需求。Open-AutoGLM 的价值，不在于它用了多大的模型或多新的算法，而在于它第一次让“用说话控制手机”这件事，变得如此简单、可靠、触手可及。

现在，你的手机已经准备好了。
你，准备好下指令了吗？

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手机自动化新玩法：Open-AutoGLM保姆级教程，轻松实现AI代劳