news 2026/4/23 15:32:33

无需手动点击!Open-AutoGLM自然语言指令执行教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
无需手动点击!Open-AutoGLM自然语言指令执行教程

无需手动点击!Open-AutoGLM自然语言指令执行教程

你有没有想过,以后用手机再也不用自己点来点去了?不是靠语音助手那种“听个大概就猜”,而是真正看懂屏幕、理解你的意思、再一步步帮你操作——就像身边有个懂安卓的AI朋友,你只管说“打开小红书搜美食”,它就自动完成打开App、输入关键词、点搜索、翻结果整套动作。

这就是 Open-AutoGLM 带来的改变。它不是又一个聊天机器人,而是一个能“看见”手机屏幕、“听懂”你说话、“动手”执行任务的真·手机端AI Agent框架。由智谱开源,专为移动端轻量化部署设计,核心能力直击真实使用痛点:不依赖预设脚本、不绑定特定App、不强制Root、不需反复训练——你下指令,它就干。

更关键的是,它把复杂的技术藏在背后:视觉语言模型负责“看图说话”,ADB(Android Debug Bridge)负责“代你点击”,智能规划模块负责“想清楚下一步该干嘛”。整个过程对用户完全透明,你只需要像跟人说话一样,用最自然的语言提需求。

下面我们就从零开始,手把手带你把这套能力装进自己的电脑和手机,让AI真正接管你的安卓设备。

1. 先搞懂它到底是什么:Open-AutoGLM与Phone Agent的关系

Open-AutoGLM 是一个开源项目名称,你可以把它理解成整套技术方案的“源代码仓库”和“开发套件”。而 Phone Agent,则是基于 Open-AutoGLM 构建出来的、可直接运行的手机智能助理系统。两者关系就像“Linux内核”和“Ubuntu系统”——前者提供底层能力,后者封装成开箱即用的产品。

1.1 它怎么做到“看懂屏幕+自动操作”的?

传统自动化工具(比如Auto.js)靠坐标点击或控件ID,一旦界面改版就失效;而 Phone Agent 走的是多模态理解路线:

  • “看”:每一步操作前,它会通过ADB截取当前手机屏幕画面,送入视觉语言模型(VLM),识别出界面上所有文字、按钮、图标、布局结构——相当于给AI配了一双眼睛。
  • “听”:你输入的自然语言指令(如“登录微信并发送‘收到’给张三”),会被大语言模型解析成明确意图、目标App、关键操作对象(张三)、动作类型(发送消息)。
  • “想”:规划模块把“看”到的画面和“听”到的指令对齐,生成可执行的动作序列:先找微信图标→点击打开→等待加载→找联系人搜索框→输入“张三”→点击头像→进入聊天页→输入框点一下→输入“收到”→点发送。
  • “做”:最后,ADB按序列精准执行点击、滑动、输入等操作,全程无需人工干预。

1.2 和普通语音助手有啥本质区别?

对比项Siri / 小爱同学Phone Agent(Open-AutoGLM)
交互方式语音唤醒 + 有限固定指令(如“打电话给妈妈”)自然语言文本输入,支持长句、上下文、模糊表达(如“把上个月发给李四的截图发给王五”)
理解深度依赖关键词匹配,无法处理界面动态变化实时感知当前屏幕状态,能判断“登录按钮是否已变灰”“验证码框是否弹出”
执行能力调用系统API,仅限系统级功能操作任意已安装App,包括第三方社交、购物、办公类应用
容错机制指令失败即终止内置敏感操作确认(如支付、删除)、人工接管入口(遇到验证码自动暂停,等你输完再继续)

简单说:前者是“语音遥控器”,后者是“能看会想还能动手的数字分身”。

2. 硬件与环境准备:三步搭好控制台

别被“AI”“多模态”吓住——这套系统对本地电脑要求极低,一台日常办公的MacBook或Windows笔记本就能跑起来。真正需要准备的是三样东西:一台安卓手机、一台能连它的电脑、以及一点耐心。

2.1 你的设备得满足这些基本条件

  • 电脑端:Windows 10/11 或 macOS Monterey(12)及以上,Python 3.10+(推荐3.10或3.11,兼容性最好)
  • 手机端:Android 7.0(Nougat)及以上,建议使用近3年主流机型(确保ADB稳定、截图清晰)
  • 网络:USB线(首选)或同一局域网WiFi(用于无线调试)

为什么强调Android 7.0+?
更低版本系统对ADB权限管理较松,但截图API不稳定,会导致视觉模型“看不清”;7.0后引入了更规范的截屏接口,Open-AutoGLM依赖它获取高质量画面。

2.2 ADB工具:你和手机之间的“翻译官”

ADB(Android Debug Bridge)是谷歌官方提供的命令行工具,它让电脑能和安卓设备通信——发指令、传文件、截屏幕、模拟点击。Open-AutoGLM所有操作都靠它驱动。

Windows 用户快速配置:
  1. 去Android SDK Platform-Tools官网下载最新zip包;
  2. 解压到一个固定路径,例如C:\platform-tools
  3. Win+R 输入sysdm.cpl→ “高级”选项卡 → “环境变量” → 在“系统变量”里找到Path→ “编辑” → “新建” → 粘贴你解压的完整路径(如C:\platform-tools);
  4. 打开新命令提示符(CMD或PowerShell),输入adb version,看到类似Android Debug Bridge version 1.0.41即成功。
macOS 用户一行搞定:

打开终端,执行(请将路径替换为你实际解压位置):

echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

如果返回版本号,说明已就绪。

小技巧:验证ADB是否真通?
手机用USB线连电脑 → 手机通知栏拉下 → 点击“USB用于” → 选“文件传输”或“传输文件” → 回到电脑终端输入adb devices,若显示一串字母数字组合(如ABC123456789 device),代表连接成功。

3. 手机端设置:打开“允许被操控”的开关

安卓系统默认禁止外部程序操控界面,我们需要手动开启几个关键权限。整个过程约2分钟,只需操作一次,后续长期有效。

3.1 开启开发者选项与USB调试

这是所有ADB操作的前提:

  • 进入手机【设置】→【关于手机】→ 连续点击【版本号】7次 → 弹出“您现在处于开发者模式”;
  • 返回设置首页 → 找到【开发者选项】(通常在“系统”或“更多设置”里)→ 开启【USB调试】;
  • 首次开启时,手机会弹窗问“允许USB调试吗?”,勾选【始终允许】→ 点【确定】。

3.2 安装ADB Keyboard:让AI能“打字”

普通输入法无法被ADB直接调用,必须换一个专为自动化设计的键盘:

  • 前往 ADB Keyboard GitHub Release页 下载最新apk(如ADBKeyboard.apk);
  • 用浏览器或文件管理器安装(需开启“未知来源应用安装”);
  • 安装完成后,进入【设置】→【语言与输入法】→【虚拟键盘】→ 将【ADB Keyboard】设为默认。

验证是否生效?
终端执行adb shell input text "hello",如果手机当前输入框里立刻出现“hello”,说明键盘已接管成功。

4. 部署控制端:三行命令跑起来

现在,本地环境和手机都准备好了,我们来部署Open-AutoGLM的控制端代码。注意:这里只部署“指挥中心”,真正的AI大脑(视觉语言模型)运行在云端服务器(你自己的vLLM服务或CSDN星图镜像),本地只负责截图、传图、发指令、执行ADB动作。

4.1 克隆代码并安装依赖

打开终端(Windows用PowerShell,macOS用Terminal),依次执行:

# 1. 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含ADB通信、图像处理、HTTP客户端) pip install -r requirements.txt pip install -e .

为什么用-e安装?
这是“可编辑安装”,意味着你后续修改代码里的逻辑(比如调整截图分辨率、加日志),不用重复pip install,改完直接生效,对调试极其友好。

4.2 连接你的手机:USB or WiFi?

USB直连(新手首选,最稳)

确保手机已用USB线连接且adb devices显示设备在线:

adb devices # 正常输出示例: # List of devices attached # ABC123456789 device
WiFi无线连接(适合远程调试)

如果你希望摆脱USB线束缚,可以走WiFi:

# 第一步:先用USB连上,开启TCP/IP模式 adb tcpip 5555 # 第二步:拔掉USB线,用WiFi连(需手机和电脑在同一局域网) # 查看手机IP:设置 → 关于手机 → 状态 → IP地址(如 192.168.1.105) adb connect 192.168.1.105:5555 # 验证是否连上 adb devices # 应显示:192.168.1.105:5555 device

常见问题:WiFi连接后adb devices显示unauthorized
手机弹出“允许USB调试吗?”窗口,务必勾选【始终允许】再点确定。这是安卓的安全机制,只认一次授权。

5. 让AI开始工作:一条指令,全自动执行

一切就绪,现在到了最激动人心的环节——给你手机下第一道自然语言指令。我们以“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”为例,演示完整流程。

5.1 命令行一键启动(最简方式)

Open-AutoGLM项目根目录下,执行:

python main.py \ --device-id ABC123456789 \ --base-url http://192.168.1.200:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:填adb devices显示的设备ID(USB)或IP:端口(WiFi);
  • --base-url:指向你部署好的vLLM服务地址(如用CSDN星图镜像,端口映射为8800);
  • --model:指定模型名,autoglm-phone-9b是官方优化的9B参数手机专用模型;
  • 最后字符串:就是你的自然语言指令,引号包裹,支持中文、标点、空格。

执行后,你会看到终端滚动输出:

[INFO] 截取屏幕... 已保存至 ./screenshots/20240520_142211.png [INFO] 上传截图与指令至云端模型... [INFO] 模型返回动作:OPEN_APP(抖音) [INFO] 执行:点击抖音图标 [INFO] 截取屏幕... 等待App加载 [INFO] 模型返回动作:TAP_TEXT("搜索") [INFO] 执行:点击搜索框 ... [INFO] 动作完成!共执行7步,耗时28.4秒

整个过程无需你碰手机,AI自己截图、分析、决策、点击,直到关注成功。

5.2 Python API调用(适合集成进自己的工具)

如果你希望把Phone Agent能力嵌入到自己的脚本或Web后台,可以用API方式调用:

from phone_agent.adb import ADBConnection, list_devices from phone_agent.agent import PhoneAgent # 1. 初始化ADB连接管理器 conn = ADBConnection() # 2. 连接设备(支持USB或WiFi) success, msg = conn.connect("ABC123456789") # 或 "192.168.1.105:5555" print(f"连接结果:{msg}") # 3. 创建PhoneAgent实例,指向你的云模型 agent = PhoneAgent( base_url="http://192.168.1.200:8800/v1", model_name="autoglm-phone-9b" ) # 4. 下达指令(同步阻塞,等待执行完成) result = agent.run( device_id="ABC123456789", instruction="打开小红书,搜索‘云南咖啡’,进入第一个笔记,点赞并收藏" ) print(f"执行状态:{result.status}") print(f"详细步骤:{result.steps}")

这段代码可以放在任何Python项目里,作为“手机自动化引擎”模块复用。

6. 故障排查指南:遇到问题别慌,90%在这里解决

即使配置全对,实操中也可能遇到小状况。以下是高频问题及对应解法,按发生概率排序:

6.1 ADB连接相关

  • 问题:adb devices显示unauthorized或空白
    解法:手机弹窗没点“允许”;或USB调试开关被意外关闭;或电脑重装过驱动。重新开启USB调试,拔插USB线,手机点授权。

  • 问题:WiFi连接后adb shell提示closed
    解法:路由器开启了AP隔离(常见于公共WiFi),导致设备间无法通信。换家用WiFi,或关闭AP隔离功能。

6.2 模型服务相关

  • 问题:终端卡在上传截图...,无后续输出
    解法:检查--base-url是否填错;云服务器防火墙是否放行8800端口;vLLM服务是否真的在运行(curl http://localhost:8800/v1/models应返回JSON)。

  • 问题:模型返回乱码、空动作、或一直说“正在思考”
    解法:检查vLLM启动命令中的--max-model-len 4096--gpu-memory-utilization 0.95是否与显存匹配;9B模型在24G显存卡上建议设为0.85

6.3 手机端表现相关

  • 问题:AI点了半天,手机没反应
    解法:确认ADB Keyboard已设为默认输入法;检查手机是否开启了“开发者选项”里的【USB调试(安全设置)】(部分华为/小米需额外开启)。

  • 问题:遇到验证码/登录页,AI停住了不继续
    解法:这是设计的安全机制。此时你手动输入验证码 → AI检测到界面变化(如“关注”按钮出现)会自动恢复执行。无需重启。

终极建议:首次测试,选一个操作路径最短的指令
比如“打开设置,进入WLAN”,而不是“登录微信发消息”。路径越短,失败环节越少,能更快验证整套链路是否通畅。

7. 总结:你刚刚掌握了一种全新的交互范式

回看整个过程,我们没写一行AI模型代码,没调一个神经网络参数,甚至没碰GPU——却让AI真正“接管”了手机。这背后是三个关键技术的无缝咬合:

  • 视觉语言模型(VLM)把像素变成语义,让AI读懂界面;
  • ADB协议把逻辑指令变成物理操作,让AI代替手指;
  • 分层规划架构把模糊需求拆解成原子动作,让AI学会“想”。

而 Open-AutoGLM 的价值,正在于它把这些能力打包成普通人也能部署、调试、定制的工具。它不追求“取代人类”,而是成为你数字生活里的“超级外脑”:

  • 运营人员用它批量管理10个账号;
  • 测试工程师用它自动生成UI遍历脚本;
  • 老年人用它语音控制复杂App;
  • 开发者用它快速验证新功能在真实设备上的表现。

技术终将回归人的需求。当你不再为点错一个按钮而懊恼,不再为记不住App路径而翻找,不再为重复操作而疲惫——那一刻,AI才真正开始发光。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:17:10

24小时挑战:使用VMware Fusion快速构建跨平台原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个快速原型开发工具包,功能包括:1. 预配置的多平台原型环境(Windows/macOS/Linux);2. 自动化测试框架&#xff1b…

作者头像 李华
网站建设 2026/4/17 23:13:53

HUMAN3.0提示词:AI如何帮你写出更聪明的代码

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 使用HUMAN3.0提示词生成一个Python脚本,实现自动化数据清洗功能。要求包括:1. 读取CSV文件;2. 处理缺失值;3. 标准化数据格式&#…

作者头像 李华
网站建设 2026/4/18 12:57:37

企业IT支持:批量修复COMDLG32.OCX故障实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个企业级COMDLG32.OCX修复工具,支持:1.通过AD域批量检测客户端状态 2.静默安装/修复 3.日志记录和报告生成 4.预防性注册表设置。要求使用PowerShell…

作者头像 李华
网站建设 2026/4/23 14:09:30

零基础Python入门:小学生都能学会的编程课

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个面向儿童的Python学习应用,功能:1.图形化编程界面 2.游戏化学习任务 3.动画讲解编程概念 4.简单有趣的编程挑战 5.成就系统激励学习。使用Blockly可…

作者头像 李华
网站建设 2026/4/23 14:46:45

3分钟搞定CHLSPROSSL证书问题:效率提升10倍

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个极速证书修复工具。功能:1. 可视化证书状态仪表盘;2. 智能对比正常/异常证书差异;3. 内置证书自动续期功能;4. 支持多平台证…

作者头像 李华
网站建设 2026/4/23 9:57:02

Emotion2Vec+ Large能否识别歌曲情感?音乐场景应用可行性分析

Emotion2Vec Large能否识别歌曲情感?音乐场景应用可行性分析 1. 问题的起点:语音模型能不能听懂歌? 你有没有试过把一首周杰伦的《晴天》上传到语音情感识别系统,想看看AI觉得这首歌是“快乐”还是“悲伤”?或者把一…

作者头像 李华