news 2026/4/23 15:46:24

Open-AutoGLM实战落地:银行账单自动截图归档流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实战落地:银行账单自动截图归档流程

Open-AutoGLM实战落地:银行账单自动截图归档流程

1. 背景与需求分析

在日常财务管理中,银行账单的整理是一项高频但重复性极高的任务。许多用户需要定期将手机银行中的交易记录截图保存,用于报销、记账或财务审计。传统方式依赖手动操作:打开App、进入账单页面、逐页滑动并截图、命名保存——不仅耗时,还容易遗漏。

随着AI Agent技术的发展,自动化处理这类任务成为可能。Open-AutoGLM是由智谱开源的一款面向移动端的AI智能体框架,基于视觉语言模型(VLM)实现对手机界面的理解与交互控制。结合ADB(Android Debug Bridge),它能够以自然语言指令驱动手机完成复杂操作流程。

本文将以“银行账单自动截图归档”为实际场景,详细介绍如何使用Open-AutoGLM + AutoGLM-Phone框架实现全流程自动化,涵盖环境搭建、设备连接、任务编写与执行优化等关键环节。

2. 技术架构与核心能力解析

2.1 Open-AutoGLM 与 Phone Agent 架构概览

Open-AutoGLM 是一个端云协同的AI代理系统,其核心组件包括:

  • 视觉语言模型(VLM):部署于云端,负责理解手机屏幕截图内容,识别按钮、文本、列表项等UI元素。
  • 动作规划引擎:根据用户指令和当前界面状态,生成下一步操作序列(如点击、滑动、输入)。
  • ADB 控制层:运行在本地PC上,通过USB或WiFi连接安卓设备,执行具体操作。
  • 输入法桥接(ADB Keyboard):实现无触摸文本输入,避免权限问题。

该系统支持多模态感知与决策闭环,用户只需输入一句自然语言指令,例如:“请帮我把最近三个月的招商银行消费记录每页截图保存到‘账单备份’文件夹”,即可触发完整自动化流程。

2.2 核心优势与适用场景

特性说明
多模态理解结合图像与文字信息,精准识别动态变化的UI界面
自然语言驱动无需编程基础,普通用户也能下达复杂指令
ADB远程控制支持真机与模拟器,可通过WiFi进行远程调试
安全机制敏感操作(如转账)需人工确认,支持验证码接管
可扩展性强提供Python API,便于集成进企业自动化流程

特别适用于以下场景:

  • 批量数据采集(如订单、账单)
  • 应用测试脚本生成
  • 移动端RPA(机器人流程自动化)
  • 跨App信息整合

3. 环境准备与设备连接配置

3.1 硬件与软件要求

为确保系统稳定运行,请按以下标准准备环境:

  • 操作系统:Windows 10+ 或 macOS Monterey+
  • Python版本:建议 Python 3.10 或更高版本
  • 安卓设备:Android 7.0以上的真实手机或模拟器(推荐使用MuMu、BlueStacks)
  • 网络环境:本地电脑与云服务器之间可互通,防火墙开放指定端口
  • ADB工具包:Android SDK Platform Tools

3.2 ADB环境配置

Windows 配置步骤:
  1. 下载 Android SDK Platform Tools 并解压。
  2. 使用Win + R输入sysdm.cpl→ 高级 → 环境变量。
  3. 在“系统变量”中的Path添加ADB解压路径(如C:\platform-tools)。
  4. 打开命令行,执行:
    adb version
    若返回版本号,则表示配置成功。
macOS 配置方法:

在终端中执行以下命令(假设解压目录为~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

可将其写入.zshrc.bash_profile实现永久生效。

3.3 手机端设置

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击“版本号”7次,提示已开启开发者选项。

  2. 启用USB调试
    返回设置主菜单 →「开发者选项」→ 开启“USB调试”。

  3. 安装 ADB Keyboard

    • 从官方渠道下载 ADB Keyboard APK 并安装。
    • 进入「设置」→「语言与输入法」→「当前输入法」→ 切换为 ADB Keyboard。

注意:此输入法允许通过ADB发送文本,绕过部分App对自动化输入的限制。

4. 控制端部署与设备连接

4.1 克隆并安装 Open-AutoGLM

在本地电脑执行以下命令:

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

安装完成后,项目结构如下:

Open-AutoGLM/ ├── main.py # 主入口 ├── phone_agent/ # 核心模块 │ ├── adb.py # ADB通信封装 │ ├── planner.py # 动作规划器 │ └── utils.py └── config/ # 配置文件

4.2 设备连接方式

USB 连接(推荐用于调试)
  1. 使用数据线连接手机与电脑。
  2. 手机弹出“允许USB调试?”对话框时,勾选“始终允许”并确认。
  3. 执行命令查看设备状态:
    adb devices
    正常输出示例:
    List of devices attached 1234567890ABCDEF device
WiFi 远程连接(适合长期运行)

若需脱离USB线缆,可启用无线ADB:

# 第一步:通过USB启用TCP/IP模式 adb tcpip 5555 # 第二步:断开USB,连接设备IP(需在同一局域网) adb connect 192.168.1.105:5555

连接成功后,即使拔掉USB线,仍可通过IP控制设备。

4.3 Python API 实现设备管理

对于需要程序化控制的场景,可使用内置API进行设备管理:

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.105:5555") print(f"连接状态: {message}") # 获取所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP地址(用于后续连接) ip = conn.get_device_ip() print(f"设备IP: {ip}") # 断开连接 conn.disconnect("192.168.1.105:5555")

5. 实战案例:银行账单自动截图归档

5.1 任务目标定义

我们要实现的目标是:

“自动打开招商银行App,进入‘收支明细’页面,向上滑动浏览最近三个月的交易记录,每页截图一次,并将图片按时间顺序命名后保存至‘/sdcard/账单备份/’目录。”

5.2 自然语言指令设计

将上述需求转化为AI可理解的指令:

打开招商银行App,进入收支明细页面,连续向上滑动5次,每次滑动后等待2秒并截图,截图保存到“账单备份”文件夹,文件名格式为 bill_01.png, bill_02.png...

5.3 启动AI代理执行任务

在项目根目录下运行:

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://<your-server-ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开招商银行App,进入收支明细页面,连续向上滑动5次,每次滑动后等待2秒并截图,截图保存到“账单备份”文件夹,文件名格式为 bill_01.png, bill_02.png..."

参数说明:

  • --device-id:来自adb devices的设备ID
  • --base-url:云端vLLM服务地址(需提前部署AutoGLM模型)
  • --model:指定使用的模型名称
  • 最后字符串:自然语言任务描述

5.4 执行过程日志分析

典型执行流程如下:

  1. AI识别桌面图标,找到“招商银行”并点击打开。
  2. 等待App加载完成,检测是否出现登录界面(如有则暂停,提示人工输入密码)。
  3. 导航至“首页”→“账户”→“收支明细”。
  4. 检测当前页面是否有交易记录,开始第一次截图(命名为bill_01.png)。
  5. 执行上滑手势,等待新内容加载,再次截图。
  6. 重复第5步共5次。
  7. 所有截图完成后,通知用户任务结束。

提示:系统会自动创建/sdcard/账单备份/目录(如不存在),并通过ADB pull命令将文件同步回本地。

6. 常见问题与优化建议

6.1 常见故障排查

问题现象可能原因解决方案
ADB无法识别设备USB调试未开启检查开发者选项中“USB调试”是否启用
连接被拒绝(connect fail)防火墙阻断开放云服务器8800等映射端口
截图失败或乱码模型输出异常检查vLLM启动参数,尤其是max-model-len=8192是否设置
App闪退或卡顿内存不足关闭后台无关应用,优先在高端机型运行
输入中文失败ADB Keyboard未设为默认回到输入法设置重新切换

6.2 性能优化建议

  1. 提升响应速度

    • 使用高性能GPU部署vLLM服务(如A10/A100)
    • 设置合理的--tensor-parallel-size参数以充分利用多卡
  2. 增强稳定性

    • 在关键节点添加显式等待(如“等待‘加载完成’字样消失”)
    • 对滚动类操作增加边界判断(如检测到底部则停止)
  3. 提高安全性

    • 启用敏感操作拦截功能,防止误触支付按钮
    • 在涉及隐私数据的操作前插入人工确认环节
  4. 批量任务调度

    • 编写Shell脚本定时拉起多个任务
    • 结合Airflow等调度工具实现企业级自动化流水线

7. 总结

Open-AutoGLM作为一款开源的手机端AI Agent框架,凭借其强大的多模态理解能力和灵活的ADB控制机制,为移动端自动化提供了全新的解决方案。本文以“银行账单截图归档”为例,完整展示了从环境搭建、设备连接到任务执行的全过程。

通过自然语言驱动的方式,即使是非技术人员也能轻松构建复杂的手机自动化流程。未来,随着模型轻量化和推理效率的提升,此类AI Agent有望广泛应用于金融、电商、客服等领域,真正实现“一句话完成一串操作”的智能体验。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:22:19

一站式语音分析方案:SenseVoice Small镜像助力多语言情感识别

一站式语音分析方案&#xff1a;SenseVoice Small镜像助力多语言情感识别 随着人工智能技术的不断演进&#xff0c;语音识别已从单纯的“语音转文字”迈向更深层次的语义理解与情感分析。在客服质检、心理评估、智能助手等场景中&#xff0c;仅获取文本内容已无法满足需求&…

作者头像 李华
网站建设 2026/4/23 13:03:07

AI读脸术快速上手:5分钟完成首次调用

AI读脸术快速上手&#xff1a;5分钟完成首次调用 1. 引言 1.1 业务场景描述 在智能安防、用户画像构建、互动营销等实际应用中&#xff0c;快速获取人脸的性别与年龄信息是一项高频需求。传统方案往往依赖复杂的深度学习框架&#xff08;如 PyTorch 或 TensorFlow&#xff0…

作者头像 李华
网站建设 2026/4/23 13:02:53

结合JavaScript与VibeThinker-1.5B,实现前端智能推导

结合JavaScript与VibeThinker-1.5B&#xff0c;实现前端智能推导 在当前Web应用复杂度持续攀升的背景下&#xff0c;开发者面临的核心挑战之一是如何高效处理动态、多变的用户输入逻辑。传统开发模式中&#xff0c;表单验证、状态流转、输入解析等“样板式”代码占据了大量开发…

作者头像 李华
网站建设 2026/4/14 21:27:12

Live Avatar本地文档维护:如何更新和查看最新说明文件

Live Avatar本地文档维护&#xff1a;如何更新和查看最新说明文件 1. 技术背景与使用现状 Live Avatar是由阿里联合高校开源的一款先进的数字人模型&#xff0c;旨在通过深度学习技术实现高质量的虚拟人物生成。该模型支持从文本、图像和音频输入中驱动数字人进行自然的表情与…

作者头像 李华
网站建设 2026/4/23 13:02:20

YOLO11代码解读:train.py核心逻辑与参数含义解析

YOLO11代码解读&#xff1a;train.py核心逻辑与参数含义解析 YOLO11是Ultralytics公司推出的最新一代目标检测算法&#xff0c;延续了YOLO系列“实时性”与“高精度”的双重优势。相较于前代版本&#xff0c;YOLO11在模型结构、训练策略和部署效率上进行了系统性优化&#xff…

作者头像 李华
网站建设 2026/4/23 10:54:07

Live Avatar NCCL错误解决:P2P通信失败排查保姆级教程

Live Avatar NCCL错误解决&#xff1a;P2P通信失败排查保姆级教程 1. 引言 1.1 技术背景与问题提出 Live Avatar是由阿里巴巴联合多所高校开源的高性能数字人生成模型&#xff0c;基于14B参数规模的DiT&#xff08;Diffusion Transformer&#xff09;架构&#xff0c;支持从…

作者头像 李华