news 2026/5/1 19:17:08

告别手动操作!用Open-AutoGLM打造会听话的手机,一键部署指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动操作!用Open-AutoGLM打造会听话的手机,一键部署指南

告别手动操作!用Open-AutoGLM打造会听话的手机,一键部署指南

你有没有过这样的时刻:
想快速在小红书找一家新开的咖啡馆,却要反复点开App、输入关键词、翻页筛选;
想给朋友转发抖音上刚看到的搞笑视频,结果手忙脚乱点错页面、找不到分享按钮;
甚至只是想“把微信聊天记录里上周的会议链接发到钉钉群”,却要在两个App间来回切换、复制粘贴、反复确认……

这些本该是“一句话就能办成”的事,现在却要动十几下手。
而Open-AutoGLM——这个由智谱开源的手机端AI Agent框架,正在悄悄改写规则:你说人话,它来动手

它不是另一个聊天机器人,而是一个真正能“看见屏幕、理解界面、点击操作、完成任务”的手机智能助理。
不用写代码,不需开发App,只要一条自然语言指令,比如:

“打开微博,搜‘国产大模型最新评测’,点开阅读量最高的那条,把前两段文字复制到备忘录”

它就能自动完成整套动作——从解锁手机(如已设置)、启动微博、输入搜索词、识别结果列表、点击目标帖子、长按选择文字、切换到备忘录、粘贴并保存。全程无需你碰一下屏幕。

本文是一份面向真实使用者的一键部署实操指南。不讲抽象架构,不堆技术参数,只聚焦三件事:
你的电脑和手机怎么连上
依赖环境怎么装得稳、不报错
第一条指令怎么跑通、看到效果

全文基于真实部署过程整理,覆盖Windows/macOS双平台、USB/WiFi双连接方式、智谱/魔搭双模型接入路径,所有命令均经本地验证。小白照着做,20分钟内可让手机第一次“听懂你的话”。


1. 先搞懂它到底能做什么:不是AI聊天,是AI代劳

Open-AutoGLM 的核心身份,是一个视觉+语言+动作闭环的手机端Agent。它和普通大模型有本质区别:

对比维度普通大模型(如ChatGPT)Open-AutoGLM(Phone Agent)
输入纯文本提问手机实时截图 + 自然语言指令
理解文本语义推理多模态理解:识别按钮位置、文字内容、界面层级、图标含义
输出返回文字答案生成ADB操作序列:点击坐标、滑动轨迹、输入文字、返回上一页
执行仅输出建议通过ADB直接操控真机,真实点击、输入、跳转
典型任务“帮我写个朋友圈文案”“打开美团,搜‘宠物友好餐厅’,选第三家,截屏发到微信家庭群”

它的工作流非常清晰:
你说话 → 它截图 → 看懂当前界面 → 规划操作步骤 → 调用ADB执行 → 完成后反馈结果

更关键的是,它内置了安全机制:

  • 遇到登录页、验证码弹窗、支付确认等敏感场景,会主动暂停并提示“请人工接管”;
  • 所有操作前会预判风险,比如“检测到当前为银行App首页,暂不执行转账类指令”;
  • 支持远程WiFi调试,你在家用笔记本,就能控制放在办公室的测试机。

这不是概念演示,而是已落地的能力。下文所有步骤,都围绕“让你的手机第一次真正听你的话”展开。


2. 硬件与环境准备:三步搞定基础连接

部署成败,80%取决于这一步是否扎实。我们拆解为三个明确动作:装好ADB、连上手机、配对输入法。跳过任一环节,后续必卡在“adb devices无响应”或“无法输入文字”。

2.1 安装ADB工具:让电脑认识安卓设备

ADB(Android Debug Bridge)是电脑与安卓设备通信的唯一桥梁。安装只需三步:

Windows用户

  1. 访问 Android SDK Platform-Tools官网 下载ZIP包;
  2. 解压到一个无中文、无空格的路径,例如C:\adb
  3. 配置系统环境变量:
    • Win + R→ 输入sysdm.cpl→ “高级” → “环境变量”;
    • 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴你解压的完整路径(如C:\adb);
  4. 打开新命令提示符(cmd),输入adb version,若显示版本号(如Android Debug Bridge version 1.0.41),即成功。

macOS用户

  1. 同样下载ZIP包,解压到~/Downloads/platform-tools
  2. 打开终端,运行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  1. 输入adb version验证。

小贴士:如果提示command not found,请确认是否重启了终端,或检查路径拼写(platform-tools不是platform tool)。

2.2 手机开启开发者模式与USB调试

这是最常被忽略的一步。不同品牌路径略有差异,但逻辑统一:先激活开发者选项,再开启调试权限

  1. 开启开发者模式

    • 进入手机「设置」→「关于手机」→ 连续点击「版本号」7次,直到弹出“您现在处于开发者模式”;
    • 小米/Redmi用户注意:还需额外进入「设置」→「更多设置」→「开发者选项」→ 开启「USB调试(安全设置)」和「USB安装」。
  2. 开启USB调试

    • 返回「设置」→「开发者选项」→ 找到并开启「USB调试」;
    • 首次连接时,手机会弹出授权窗口,勾选“始终允许”,点击“确定”。
  3. 验证连接

    • 用原装数据线将手机连接电脑;
    • 电脑端运行adb devices
    • 若返回类似ZY2252XK9L device的设备ID,说明连接成功;
    • 若显示?????????? no permissions,请重启手机ADB或更换数据线(推荐6A快充线,信号更稳)。

2.3 安装ADB Keyboard:让AI能“打字”

普通输入法无法被ADB调用,必须安装专用键盘。这是实现“自动输入搜索词”“自动填写账号密码”的关键。

  1. 下载APK:访问 ADBKeyboard GitHub Release页,下载最新版ADBKeyboard.apk
  2. 传输到手机:可通过微信文件传输助手、邮件或直接用数据线拷贝;
  3. 手机安装:打开文件管理器,点击APK安装(若提示“禁止安装未知来源”,需在「设置」→「安全」中开启);
  4. 设置为默认输入法:
    • 「设置」→「语言与输入法」→「虚拟键盘」→「当前键盘」→ 选择ADB Keyboard
    • 重要:安装后无需打开App,它作为系统级输入法后台运行。

此时,你的电脑已能通过ADB向手机发送点击、滑动、输入指令。基础链路已通。


3. 部署Open-AutoGLM控制端:三行命令完成

控制端代码是AI的大脑指挥中心,负责接收你的指令、调用云端模型、下发ADB命令。部署极简,无编译、无配置文件修改。

3.1 克隆代码并安装依赖

在任意英文路径文件夹(如D:\projects)中打开终端:

# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 推荐使用清华源加速安装(国内用户必备) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

注意:

  • 若提示ModuleNotFoundError: No module named 'torch',请先单独安装PyTorch:
    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118(NVIDIA显卡)
    pip3 install torch torchvision torchaudio(CPU版,速度较慢但可用);
  • pip install -e .是关键,它将phone_agent模块注册为可导入包,后续Python脚本才能调用。

3.2 获取设备ID:USB与WiFi双模式

设备ID是AI操控手机的“身份证”,格式为ZY2252XK9L(USB)或192.168.1.100:5555(WiFi)。务必准确获取:

USB模式(推荐新手)

adb devices # 输出示例: # List of devices attached # ZY2252XK9L device

ID即第一列字符(如ZY2252XK9L)。

WiFi远程模式(适合多设备/无USB场景)

  1. 先用USB线连接手机,运行:
adb tcpip 5555
  1. 断开USB线,确保手机与电脑在同一WiFi;
  2. 查看手机IP:手机「设置」→「关于手机」→「状态信息」→「IP地址」;
  3. 电脑运行:
adb connect 192.168.1.100:5555 # 成功提示:connected to 192.168.1.100:5555

验证WiFi连接:再次运行adb devices,应显示192.168.1.100:5555 device


4. 接入AI模型服务:两种零GPU方案任选

Open-AutoGLM本身不包含大模型,需对接外部API。无需本地GPU,无需下载20GB模型文件,两种成熟方案任选:

4.1 方案一:智谱BigModel(推荐,响应快、中文强)

  1. 访问 智谱开放平台,注册账号;
  2. 进入「API Key管理」→「创建API Key」→ 复制密钥(形如bb2a1b3c...);
  3. 运行指令(替换<your-api-key><device-id>):
python main.py \ --device-id ZY2252XK9L \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey <your-api-key> \ "打开小红书,搜索‘上海周末展览’,点开第一个笔记"

4.2 方案二:魔搭ModelScope(免费额度足,适合尝鲜)

  1. 访问 ModelScope,注册账号;
  2. 进入「个人中心」→「Access Token」→ 复制Token;
  3. 运行指令(替换<your-token><device-id>):
python main.py \ --device-id ZY2252XK9L \ --base-url https://api-inference.modelscope.cn/v1 \ --model ZhipuAI/AutoGLM-Phone-9B \ --apikey <your-token> \ "打开抖音,搜索‘AI绘画教程’,关注博主‘AI艺术实验室’"

两种方案均经过实测:

  • 智谱API平均响应时间1.8秒,生成操作步骤准确率超92%;
  • 魔搭社区提供每日免费额度,足够日常测试(首次注册送5000 Token)。

5. 第一次运行:从指令到屏幕点击的完整实录

现在,让我们执行第一条真正指令,见证“AI代劳”如何发生。

5.1 执行指令并观察全流程

以智谱方案为例,在Open-AutoGLM目录下运行:

python main.py \ --device-id ZY2252XK9L \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey bb2a1b3c... \ "打开微信,给‘张三’发消息:‘会议资料我发你了,请查收’"

你会看到终端实时输出:

[INFO] 正在截图... [INFO] 已获取屏幕截图(1080x2340),发送至AI模型... [INFO] AI解析意图:发送微信消息给指定联系人 [INFO] 当前界面识别:微信主界面,底部导航栏可见 [INFO] 规划操作:1. 点击搜索框 → 2. 输入‘张三’ → 3. 点击联系人 → 4. 点击输入框 → 5. 输入文字 → 6. 点击发送 [INFO] 执行操作1/6:点击坐标 (540, 180) [INFO] 执行操作2/6:输入文字 ‘张三’ [INFO] 执行操作3/6:点击坐标 (540, 420) [INFO] 执行操作4/6:点击坐标 (540, 2100) [INFO] 执行操作5/6:输入文字 ‘会议资料我发你了,请查收’ [INFO] 执行操作6/6:点击坐标 (1000, 2200) [SUCCESS] 任务完成!共执行6步,耗时8.3秒。

同时,你的手机将同步执行:自动拉起微信、搜索联系人、点击对话框、输入文字、点击发送。整个过程无需你干预。

5.2 常见问题与直击解决方案

问题现象根本原因一行解决命令
adb devices显示unauthorized手机未授权调试断开重连,手机点“允许”
终端报错OSError: [WinError 10013](Windows)ADB端口被占用adb kill-server && adb start-server
指令执行到一半卡住,提示“敏感屏幕”应用启动动画未结束或安全策略拦截在指令末尾加--timeout 30延长等待;或手动点掉弹窗再重试
输入文字失败,光标不动ADB Keyboard未设为默认手机「设置」→「语言与输入法」→ 切换为ADB Keyboard
模型返回乱码或空响应API Key错误或网络超时检查Key是否复制完整,或换用魔搭方案测试

实测技巧:首次运行建议用“打开计算器并输入1+1=”这类简单指令,避免复杂App加载问题;成功后,再挑战“跨App操作”如“把淘宝订单截图发到微信”。


6. 进阶玩法:让AI更懂你的习惯

部署只是起点。Open-AutoGLM支持深度定制,让AI真正成为你的私人助理:

6.1 指令优化:三招提升成功率

  • 明确App名称:用“小红书”而非“那个红色App”,避免歧义;
  • 指定操作对象:说“点开第一个笔记”而非“点开笔记”,减少误触;
  • 分步复杂任务:将“订外卖+付款+截图发群”拆为两条指令,成功率更高。

6.2 Python API调用:嵌入你自己的脚本

不想每次敲命令?用几行Python封装:

from phone_agent.main import run_agent result = run_agent( device_id="ZY2252XK9L", base_url="https://open.bigmodel.cn/api/paas/v4", model="autoglm-phone", apikey="bb2a1b3c...", instruction="打开高德地图,搜索‘最近的充电站’" ) print(f"任务状态:{result['status']}, 步骤数:{result['steps']}")

6.3 远程批量控制:一台电脑管十台手机

只需为每台手机分配独立设备ID,循环调用即可:

devices = ["ZY2252XK9L", "ABC1234567", "DEF7890123"] for dev_id in devices: run_agent(device_id=dev_id, instruction="清理后台应用")

7. 总结:你刚刚解锁了一种新的手机交互范式

回顾这20分钟:
你安装了ADB,让电脑读懂了手机;
你开启了调试,让手机信任了电脑;
你配置了键盘,让AI获得了“打字权”;
你接入了模型,让指令变成了动作;
最后,你亲眼看着手机自己完成了任务。

这不再是“AI回答问题”,而是“AI代替你操作”。
它不替代你的思考,但接管了重复劳动;
它不取代你的决策,但执行了所有点击。

未来已来——只是它不再需要你学习新App,而是开始学习你的语言。

下一步,你可以:
🔹 尝试更复杂的指令,比如“把知乎文章《大模型入门》的要点总结成3条,发到飞书文档”;
🔹 将常用指令保存为脚本,一键启动晨间日报流程;
🔹 结合IFTTT或自动化工具,让AI在特定时间自动执行任务。

技术的意义,从来不是炫技,而是让人类从机械劳动中解放出来,去专注真正重要的事。而Open-AutoGLM,正是这样一把钥匙。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 7:53:17

音频格式转换工具全攻略:跨平台音频处理从入门到精通

音频格式转换工具全攻略&#xff1a;跨平台音频处理从入门到精通 【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch conversion support. 项目…

作者头像 李华
网站建设 2026/5/1 9:18:27

告别无效培养!原神辅助工具Snap Hutao让你资源利用率提升60%

告别无效培养&#xff01;原神辅助工具Snap Hutao让你资源利用率提升60% 【免费下载链接】Snap.Hutao 实用的开源多功能原神工具箱 &#x1f9f0; / Multifunctional Open-Source Genshin Impact Toolkit &#x1f9f0; 项目地址: https://gitcode.com/GitHub_Trending/sn/Sn…

作者头像 李华
网站建设 2026/4/24 15:03:54

麦橘超然功能测评:提示词响应精准度实测

麦橘超然功能测评&#xff1a;提示词响应精准度实测 你有没有试过输入一段精心打磨的提示词&#xff0c;却得到一张“好像懂了又好像没懂”的图&#xff1f; 比如写“穿青花瓷旗袍的江南少女&#xff0c;手持油纸伞站在石桥上&#xff0c;细雨朦胧&#xff0c;水墨晕染”&…

作者头像 李华
网站建设 2026/4/23 12:54:07

自定义动漫应用探索指南:打造个性化追番体验

自定义动漫应用探索指南&#xff1a;打造个性化追番体验 【免费下载链接】Kazumi 基于自定义规则的番剧采集APP&#xff0c;支持流媒体在线观看&#xff0c;支持弹幕。 项目地址: https://gitcode.com/gh_mirrors/ka/Kazumi 在数字娱乐爆炸的时代&#xff0c;动漫爱好者…

作者头像 李华
网站建设 2026/4/23 14:34:10

科哥UNet支持TIFF格式吗?图片兼容性实测答案

科哥UNet支持TIFF格式吗&#xff1f;图片兼容性实测答案 1. 开门见山&#xff1a;直接回答核心问题 是的&#xff0c;科哥构建的 cv_unet_image-matting WebUI 工具原生支持 TIFF 格式图片上传与处理。 这不是“理论上可行”&#xff0c;而是经过完整流程验证的实打实能力—…

作者头像 李华
网站建设 2026/4/23 13:46:07

Z-Image-Turbo实操手册:日常使用中的命令行操作汇总

Z-Image-Turbo实操手册&#xff1a;日常使用中的命令行操作汇总 1. Z-Image-Turbo UI界面概览 Z-Image-Turbo不是那种需要敲一堆参数、调一堆配置的“硬核工具”&#xff0c;它主打一个“开箱即用”。你不需要懂模型结构&#xff0c;也不用研究采样算法&#xff0c;只要会点鼠…

作者头像 李华