AutoGLM-Phone的介绍-深圳市維司達科技有限公司

一、AutoGLM-Phone：到底是什么？

简单来说，AutoGLM-Phone 是一个能“看懂”手机屏幕并帮你操作的智能体框架。

核心：它基于一个名为AutoGLM-Phone-9B的9B（90亿）参数多模态大模型。这个模型经过专门训练，能同时理解文本指令和手机屏幕截图。
能力：它不只是一个模型，而是一套完整的解决方案。提供训练好的模型、手机操作框架、工具链，以及覆盖50+常用中文App（如微信、美团、小红书）的示例。
工作原理：你通过自然语言下达指令（如“帮我订一张明天去上海的机票”），它会自动解析意图、分析当前手机界面、规划操作步骤（点击、输入、滑动等），并通过ADB（安卓调试桥）自动执行，直到任务完成。系统对敏感操作（如支付）设有确认机制。

二、两种主流部署方案对比

部署的核心是将 AutoGLM-Phone-9B 模型在拥有高性能GPU的服务器上运行起来，并提供API服务。以下是两种主流路径的对比：

特性	方案一：使用 PPIO 算力市场（模板化部署，推荐新手）	方案二：使用模力方舟等传统云GPU（手动部署）
核心优势	一键部署，极大简化流程，无需关心环境配置、命令参数。	灵活性高，适合需要深度定制或研究底层过程的开发者。
部署流程	1. 在PPIO模板市场选择“AutoGLM-Phone-9B”模板。 2. 选择配置（通常已优化）并部署实例。 3. 等待几分钟，实例自动完成模型下载、服务启动。	1. 租用云GPU服务器（如2*NVIDIA 4090）。 2. 手动通过命令行克隆项目、安装依赖、下载模型。 3. 手动编写并调试复杂的启动命令脚本 (`run.sh`)。
技术门槛	极低，如同使用云服务产品。	高，需要具备Linux命令行、Python环境、模型部署相关知识。
适合人群	希望快速体验、测试或专注于应用开发的用户。	希望学习完整部署流程、进行二次开发或研究的开发者。

三、测试与使用流程（两种方案通用）

无论采用上述哪种方案部署好模型服务，后续在本地电脑上连接手机进行测试的步骤是相同的。

准备工作：

安卓手机：开启“开发者模式”和“USB调试”。
本地电脑：安装adb工具，并能通过USB正常连接手机（执行adb devices可见设备）。
获取模型API地址：
- PPIO方案：在实例详情页直接获取访问地址（如http://xxx.ppio.cloud:8000/v1）。
- 手动方案：需要通过SSH隧道将云服务器的端口（如8000）转发到本地（如localhost:8118），地址为http://localhost:8118/v1。

操作步骤：

准备客户端环境：

# 1. 克隆客户端代码仓库gitclone https://github.com/zai-org/Open-AutoGLM.gitcdOpen-AutoGLM# 2. （建议）创建Python虚拟环境uv venv# 或使用 python -m venv venv# 3. 安装必要的客户端依赖（与服务端依赖不同）# 编辑 requirements.txt，通常只保留 Pillow 和 openaiuv pipinstallPillow openai# 或使用 pip

连接并运行：

用USB连接手机，确认adb devices列出设备。
运行客户端脚本，指向你的模型服务地址：

# 将 --base-url 参数替换为你实际的API地址python main.py --base-url http://你的模型API地址 --model"autoglm-phone-9b""打开抖音，搜索热门视频"

开始交互：
- 运行命令后，系统会自动截取手机屏幕，连同你的指令发送给模型。
- 模型会返回操作规划，并自动通过ADB控制手机执行。
- 你可以在命令行中直接输入新的指令继续交互。

四、总结与建议

对于绝大多数想尝鲜或快速集成的用户，强烈推荐通过PPIO算力市场的模板进行部署。这是目前最简单、最快速的入门方式，能让你在几分钟内跳过所有复杂步骤，直接进入测试环节。
对于开发者或研究人员，手动部署方案能让你更透彻地理解整个系统的工作机制、依赖关系以及如何调整参数（如使用vLLM进行推理优化），便于后续的定制开发。
核心体验一致：无论选择哪种部署后端，最终获得的Phone Agent核心能力体验是一致的，都能实现通过自然语言控制手机完成复杂任务。

适合2026届汽车检测与维修高职生的证书推荐

汽车检测与维修行业对技术能力和专业认证的要求较高，2026届高职生可通过考取相关证书提升就业竞争力。以下推荐分为行业核心证书、数据分析类证书和综合能力证书三类，并附详细说明。行业核心证书证书名称颁发机构适用领域考试内容优势汽车维修工&#xf…

李华

32、实用编程工具：拼写检查与索引生成程序详解

实用编程工具：拼写检查与索引生成程序详解在编程和文档处理过程中，拼写检查和索引生成是非常重要的环节。以下将详细介绍两个实用的程序： spellcheck.awk 和 masterindex 脚本。 1. spellcheck.awk 交互式拼写检查程序 spellcheck.awk 是一个交互式的拼写检查程序…

李华

Kotaemon与Slack/DingTalk集成：打造办公场景智能助手

Kotaemon与Slack/DingTalk集成：打造办公场景智能助手在现代企业里，每天都在上演这样一幕：员工在钉钉群里反复追问“报销流程怎么走”，HR不得不一遍遍复制粘贴制度文档；技术支持团队被“密码重置”这类基础问题淹没&am…

李华

Kotaemon健康检查接口设计：用于负载均衡探测

Kotaemon健康检查接口设计：用于负载均衡探测在构建现代智能对话系统时，一个常被低估但至关重要的环节浮出水面：服务的“心跳”——健康检查。尤其是在基于检索增强生成（RAG）架构的复杂应用中，如Kotaemon这…

李华

Kotaemon能否识别文档签名？数字证书验证探索

Kotaemon能否识别文档签名？数字证书验证探索在金融合同审核、电子病历归档或政府公文流转的日常场景中，一份PDF文件是否“真正签署”过，远不只是视觉上有没有一个手写体名字的问题。背后的数字签名机制，才是决定其法律效力的核心…

李华

Apifox + AI：接口自动化测试的智能化实践

在 AI 逐步参与接口开发和测试的当下，自动化测试的门槛正在被不断拉低。很多过去需要反复手动操作、人工造数据的事情，现在都可以交给 AI 来处理，而 Apifox 在接口测试这件事上，也正在发生类似的变化。在 Apifox 中，…

李华