Open-AutoGLM使用全攻略：适合新手的精简版教程-深圳市維司達科技有限公司

Open-AutoGLM使用全攻略：适合新手的精简版教程

你有没有想过，让AI替你点外卖、查价格、发朋友圈，甚至帮你关注抖音博主？Open-AutoGLM 就是这样一款真正能“动手”的手机端AI助手——它不只聊天，还能看懂屏幕、理解界面、自动点击、输入文字、完成跨App任务。更关键的是，它不需要你写一行代码就能上手，只要会说人话，就能指挥手机干活。

本教程专为新手设计，跳过冗长的服务器部署细节（那些内容已有完整文档覆盖），聚焦在最核心的三件事：怎么连上你的手机、怎么调通云端模型、怎么用一句自然语言让AI开始工作。全程不碰Docker、不配GPU驱动、不改防火墙，所有操作在本地电脑完成，15分钟内即可看到AI第一次自动打开App并执行指令。

如果你已经有一台运行vLLM服务的云服务器（哪怕只是试用版），这篇就是为你准备的“开箱即用”指南。

1. 前提确认：你只需要这三样东西

在动手前，请花30秒确认以下三项是否已就绪。缺一不可，但每一项都极容易搞定：

一台安卓手机（Android 7.0+）：真机或模拟器均可，推荐用旧手机测试，避免影响日常使用
一台本地电脑（Windows/macOS）：用于运行控制端和ADB工具，无需高性能配置
一个已部署好的AutoGLM-Phone模型服务地址：例如http://123.56.78.90:8800/v1（这是你云服务器的IP+端口，不是本地地址）

注意：本教程默认你已跳过服务器端部署环节。如果你还没搭好模型服务，可先访问Open-AutoGLM GitHub查看快速启动镜像，或参考文末链接获取一键部署方案。我们只讲“怎么让AI动起来”，不讲“怎么造引擎”。

2. 手机设置：三步开启“被操控”权限

手机不是生来就接受AI指挥的，需要手动打开几个开关。整个过程不到2分钟，且只需设置一次。

2.1 开启开发者模式与USB调试

这是所有自动化操作的基础，就像给手机装上“遥控接收器”：

进入手机「设置」→「关于手机」→连续点击「版本号」7次，直到弹出“您现在处于开发者模式”提示
返回「设置」→「系统与更新」→「开发者选项」→开启「USB调试」
连接手机到电脑的USB线，首次连接时，手机会弹出“允许USB调试吗？”对话框 →务必勾选“始终允许”，再点确定

小技巧：如果没弹窗，拔插USB线重试；若仍无反应，检查USB线是否仅支持充电（需数据线）。

2.2 安装ADB Keyboard（解决输入问题）

普通手机键盘无法被程序调用，必须换成ADB专用输入法：

下载 ADB Keyboard APK（约150KB，无广告）
在手机上安装该APK（需开启「未知来源应用安装」权限）
进入「设置」→「语言与输入法」→「当前输入法」→选择「ADB Keyboard」作为默认

验证成功：后续执行命令时，AI才能在搜索框里准确打出“美食”“小红书”等文字，而不是乱码或卡住。

3. 本地环境搭建：装好“指挥官”软件

控制端代码就是AI的“大脑外设”，它负责拍照传图、接收模型指令、驱动手机点击。我们用最轻量的方式安装。

3.1 安装ADB工具（5分钟搞定）

ADB是Android调试桥，是连接电脑和手机的唯一通道。无需复杂配置，按系统选择：

Windows用户：
1. 下载 Android Platform Tools
2. 解压到任意文件夹，如C:\adb
3. 按Win + R输入sysdm.cpl→「高级」→「环境变量」→「系统变量」→「Path」→「编辑」→「新建」→粘贴C:\adb→ 点击「确定」
4. 打开命令提示符，输入adb version，看到类似Android Debug Bridge version 1.0.41即成功

macOS用户：

下载 platform-tools-latest-darwin.zip

解压后进入终端，执行：

export PATH=${PATH}:~/Downloads/platform-tools echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

关键验证：在终端输入adb devices，若显示List of devices attached后跟一串设备ID（如ZY322XXX device），说明手机已成功接入。

3.2 获取并运行Open-AutoGLM控制端

这才是真正的“AI遥控器”，它轻量、开源、无需编译：

# 1. 克隆代码（约10秒） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖（Python 3.10+，约1分钟） pip install -r requirements.txt pip install -e . # 3. 验证安装（无报错即成功） python -c "from phone_agent.adb import ADBConnection; print(' 控制端加载正常')"

提示：如果pip install -e .报错pydantic<2.0冲突，直接运行pip install "pydantic<2.0"再重试即可。这是常见兼容性问题，非环境异常。

4. 连接与测试：让AI第一次“看见”你的手机

现在，AI有了“眼睛”（视觉模型）、“手”（ADB）、“大脑”（云端服务），只差一次握手。

4.1 确认设备连接方式

根据你的使用场景选择一种（推荐USB，最稳定）：

USB直连（新手首选）：手机用数据线连电脑 → 终端运行adb devices→ 确认设备状态为device

WiFi无线连接（适合远程）：

# 先用USB连一次，启用网络调试 adb tcpip 5555 # 拔掉USB线，用WiFi连接（手机和电脑需在同一局域网） adb connect 192.168.1.100:5555 # 替换为手机实际IP adb devices # 应显示 IP:5555 device

查找手机IP：安卓进入「设置」→「Wi-Fi」→点击当前网络 → 查看「IP地址」（通常形如192.168.1.xxx）

4.2 一条命令，启动AI代理

这才是全文最核心的一行命令。请将其中三个占位符替换成你的实际信息：

python main.py \ --device-id ZY322XXX \ --base-url http://123.56.78.90:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索‘北京烤鸭’并保存第一张图片"

--device-id：从adb devices输出中复制的设备ID（如ZY322XXX或192.168.1.100:5555）
--base-url：你的云服务器模型服务地址（格式必须是http://IP:端口/v1）
最后字符串：你的自然语言指令，越具体越好（支持中文，无需特殊格式）

执行后你会看到：
终端实时打印📸 截图已上传、正在分析界面...、🖱 执行点击：坐标(520, 310)等日志
手机屏幕自动亮起 → 打开小红书 → 顶部搜索框出现光标 → 自动输入“北京烤鸭” → 点击搜索 → 滑动页面 → 长按第一张图 → 弹出“保存图片”菜单

如果一切顺利，10–30秒内，AI就完成了人类需手动操作10步的任务。

5. 实用技巧与避坑指南：新手最容易卡住的5个地方

即使按教程操作，也可能遇到“看起来对，但没反应”的情况。以下是真实用户高频问题的解决方案，按优先级排序：

5.1 指令没响应？先检查这三点

现象	可能原因	一句话解决
终端卡在`Waiting for model response...`超过1分钟	模型服务地址填错或网络不通	在浏览器打开`http://你的IP:端口/health`，若返回`{"status":"healthy"}`则服务正常；否则检查云服务器安全组是否放行端口
手机没任何动作，但终端显示`截图成功`	ADB未获得手机权限	断开USB重连，手机弹窗时务必点“允许”；或进「开发者选项」→ 关闭再开启「USB调试」
AI识别错界面（比如把微信当成小红书）	手机屏幕有锁屏、通知栏或悬浮窗遮挡	执行前手动清空通知栏、关闭所有悬浮窗、确保屏幕完全显示App主界面

5.2 让指令更可靠的小技巧

指令要带明确动词：用“打开”“搜索”“点击”“输入”“长按”，避免“帮我看看小红书有什么好吃的”这类模糊表达
指定App名称而非图标：写“打开小红书”比“打开那个红色小书图标”更稳定
数字用阿拉伯数字：写“第1个”比“第一个”识别率高；写“搜索‘dycwo11nt61d’”比“搜索抖音号dycwo11nt61d”更准
敏感操作会暂停：当AI需要输入密码或验证码时，会自动停止并提示需人工接管，此时你手动输入后，再回车继续

5.3 快速验证是否真“可用”

不用每次都写新指令，用这个内置测试句检验全流程：

python main.py --device-id ZY322XXX --base-url http://123.56.78.90:8800/v1 --model "autoglm-phone-9b" "打开设置，进入关于手机，截图"

预期效果：手机自动打开「设置」→ 滑动到底部点击「关于手机」→ 自动截屏 → 终端显示截图已保存至 ./screenshots/xxx.png。
这个指令覆盖了启动App、点击、滑动、截图全部基础能力，5秒内出结果。

6. 进阶玩法：从“能用”到“好用”

当你跑通第一条指令后，可以立刻尝试这些零成本提升体验的方法：

6.1 用Python API封装成自己的函数

不想每次敲长命令？写个两行脚本，以后只输一句话：

# save_as auto_runner.py from phone_agent.cli import run_agent run_agent( device_id="ZY322XXX", base_url="http://123.56.78.90:8800/v1", model="autoglm-phone-9b", instruction="打开淘宝，搜索‘降噪耳机’，按销量排序，截图前三名商品" )

运行：python auto_runner.py—— 和命令行效果完全一致，但更易复用。

6.2 处理多设备：同时指挥两部手机

只需两个终端窗口，分别运行：

# 窗口1：控制手机A python main.py --device-id ZY322XXX --base-url ... "给微信置顶好友发‘吃饭了吗’" # 窗口2：控制手机B python main.py --device-id 192.168.1.101:5555 --base-url ... "打开钉钉，打卡"

原理：Open-AutoGLM 的每个实例只绑定一个设备，互不干扰。适合测试不同机型或批量操作。

6.3 指令模板库（直接复制粘贴）

保存这些常用指令，随取随用：

打开微博，搜索‘今日热点’，截图热搜榜
打开美团，定位到‘上海徐汇区’，搜索‘咖啡’，点击第一家店，截图营业时间
打开相册，找到最近一张自拍，分享到微信‘我的家人’分组
打开京东，搜索‘机械键盘’，按价格升序，截图最便宜的3款商品详情页

这些不是示例，而是真实通过测试的指令。你只需替换关键词（如把“上海徐汇区”改成你所在位置），就能立即生效。

7. 总结：你已经掌握了AI手机助理的核心能力

回顾一下，你刚刚完成了什么：

在手机上开启了开发者权限和ADB调试，赋予AI“操作权”
在电脑上装好了ADB和Open-AutoGLM控制端，搭建了“指挥链路”
用一条命令连接云端模型，让AI第一次读懂屏幕、理解意图、自动执行
掌握了5个高频问题的排查方法，不再被卡在第一步
学会了封装API、多设备控制、指令模板等进阶技巧，让效率翻倍

Open-AutoGLM 的本质，不是另一个聊天机器人，而是一个可编程的数字双手。它不替代你的思考，但把重复的手动操作交给AI——查价格、比参数、填表单、截证据、同步信息……这些琐事，从此只需一句话。

下一步，你可以尝试让它帮你：

每天早上自动截图天气预报发到家庭群
监控电商页面降价，降价时自动下单
辅助老人操作手机，语音说“帮我看微信红包”就自动点开

技术的价值，从来不在参数多高，而在是否真正省去了你手指的那一次点击。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM使用全攻略：适合新手的精简版教程