Open-AutoGLM效果展示：AI自动关注抖音账号全过程-深圳市維司達科技有限公司

Open-AutoGLM效果展示：AI自动关注抖音账号全过程

你有没有试过——在手机上一边刷抖音，一边想：“要是能让我刚看到的这个博主，AI自动帮我点开、进主页、再点关注，该多省事？”
现在，这不是设想。Open-AutoGLM 真的做到了：你只说一句自然语言指令，它就能接管你的安卓手机，看清屏幕、理解界面、规划动作、精准点击，全程无需手动操作。
更关键的是，它不是“录屏回放”或“固定脚本”，而是真正看懂了当前页面——比如识别出“关注”按钮在哪、判断出账号是否已登录、发现弹窗后主动暂停并等你确认……这种“像人一样思考+像机器人一样执行”的能力，正是 AI Agent 走向实用的关键一步。

本文不讲原理、不堆参数、不列配置项。我们直接进入最真实、最直观的效果现场：从零开始，让 Open-AutoGLM 完整走一遍“打开抖音 → 搜索指定抖音号 → 进入主页 → 点击关注”的全流程，并全程记录每一步发生了什么、屏幕怎么变、AI怎么想、哪里卡顿、哪里惊艳。

1. 效果总览：一句话完成四步操作，全程自动无干预

先看结果——这是整个流程结束后，手机屏幕上最终呈现的状态：

抖音 App 已启动并处于前台
搜索栏中已自动输入“dycwo11nt61d”并完成搜索
搜索结果页第一项即为该抖音号，且已成功点击进入其个人主页
主页右上角“关注”按钮文字变为“已关注”，状态图标亮起

整个过程耗时约 48 秒（含模型推理、ADB 操作、界面加载等待），期间你只需在电脑终端敲下一行命令，然后看着手机自己动起来。

这不是预设路径的机械点击，而是动态感知 + 实时决策的结果。
当 AI 发现搜索结果页没有立即出现“dycwo11nt61d”，它会主动滑动页面查找；当它看到“未登录”提示弹窗，会立刻停止执行并弹出确认提示；当它识别出“关注”按钮被遮挡（如底部导航栏重叠），会先上滑再点击——这些细节，才是效果真实的分水岭。

下面，我们把这 48 秒拆解成可验证、可复现、可感知的五个关键阶段，带你亲眼见证 AI 是如何“看”、“想”、“做”的。

2. 阶段一：指令解析与意图理解——听懂你说的每一字

当你在终端输入这条命令：

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://192.168.1.100:8800/v1 \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

Open-AutoGLM 的第一步，不是去点手机，而是在云端模型里“读”你的这句话。

它不会简单地按关键词切分，而是进行三层理解：

2.1 动作意图识别

“打开抖音” → 启动目标 App（包名com.ss.android.ugc.aweme）
“搜索抖音号为：dycwo11nt61d” → 定位搜索入口 → 输入文本 → 执行搜索
“并关注他” → 在结果页识别目标账号 → 进入主页 → 点击关注按钮

2.2 实体抽取与上下文绑定

抖音号dycwo11nt61d被准确提取为唯一标识符，而非普通字符串
“他”被绑定到前文提到的抖音号，避免歧义（例如不会误认为是当前登录账号）
“关注”被映射为 UI 元素语义标签，而非固定坐标（所以换机型、换分辨率也不怕）

2.3 可执行性预判

模型还会快速评估任务可行性：

当前设备是否已安装抖音？→ 通过 ADB 查询pm list packages | grep aweme
是否已登录账号？→ 若未登录，后续将触发人工确认环节（后文详述）
屏幕是否处于锁屏状态？→ 自动唤醒并解锁（需提前授权）

这一阶段全程在 1.2 秒内完成，不依赖任何本地规则引擎，全部由autoglm-phone-9b多模态模型实时生成结构化任务计划（Plan Tree）。你可以把它理解为：AI 先在脑子里画了一张操作地图，才让手指真正动起来。

3. 阶段二：屏幕感知与界面理解——AI真的“看见”了你的手机

当模型确认可以执行后，它立刻通过 ADB 截图获取当前手机画面（PNG 格式，分辨率自适应），并将图像与上一步生成的任务计划一起送入视觉语言模型（VLM）。

这不是 OCR 文字识别，而是端到端的界面语义理解。我们截取其中三张关键截图，看看它到底“看懂”了什么：

3.1 初始状态：桌面页

![桌面截图]

模型识别出：顶部状态栏（时间/信号）、底部 Dock 栏（含抖音图标）、应用网格区域
它没有去数第几行第几列，而是直接定位到“抖音”App 图标，并输出点击坐标(x: 320, y: 850)（以屏幕左上为原点）
验证方式：用adb shell input tap 320 850手动执行，确实打开抖音

3.2 抖音首页：底部导航栏

![抖音首页截图]

模型识别出：底部 5 个 Tab（首页、朋友、搜索、消息、我）
它知道“搜索”Tab 在第 3 个位置，但不依赖顺序编号，而是通过图标语义（放大镜图标 + “搜索”文字）匹配
输出动作：点击搜索 Tab → 坐标(x: 540, y: 2100)（适配全面屏）

3.3 搜索页：输入框与键盘

![搜索页截图]

模型识别出：顶部搜索框（带“抖音号”提示文字）、软键盘已弹出、光标在输入框内闪烁
它判断此时可直接输入，于是调用adb shell input text "dycwo11nt61d"
输入完成后，识别出右侧“搜索”按钮（蓝色圆角矩形，含放大镜图标），点击执行

关键细节：当软键盘遮挡搜索按钮时，模型会先发送adb shell input keyevent 4（返回键）收起键盘，再点击——这个“条件判断+动作组合”，是纯规则脚本极难覆盖的。

所有这些识别，都基于模型对数万张安卓界面截图的多模态训练，它认的不是像素，而是“功能区块”和“交互意图”。

4. 阶段三：动态执行与容错响应——不卡壳、不盲点、不硬撞

这是最体现 AI Agent 成熟度的部分：它不假设一切顺利，而是边走边看、边看边调。

我们还原真实执行中遇到的两个典型场景：

4.1 场景一：搜索结果未首屏显示

抖音搜索dycwo11nt61d后，结果页默认只显示前 3 个账号。而目标账号实际排在第 7 位。

模型首先在首屏查找含dycwo11nt61d文字的卡片 → 未找到
它没有报错退出，而是生成新动作：“向下滑动半屏” →adb shell input swipe 500 1500 500 800
再次截图分析 → 仍未找到 → 继续滑动
第三次截图时，目标卡片完整出现在屏幕中央 → 精准点击头像区域

整个过程无预设滑动次数，全靠视觉反馈驱动，类似人眼扫视。

4.2 场景二：登录状态弹窗拦截

当我们第一次运行该指令时，抖音检测到未登录，弹出“请先登录”的半透明浮层，覆盖了整个页面。

模型截图后，立即识别出该弹窗（标题“请先登录”+两个按钮“取消”“去登录”）

它没有强行点击下方被遮挡的“关注”按钮，而是主动暂停执行，并在终端输出：

[PAUSE] 检测到登录弹窗，需人工确认。 按 Enter 继续（将点击“去登录”），或 Ctrl+C 中断。

你按下回车后，它才点击“去登录”，跳转至登录页；若你选择中断，流程干净退出，不残留任何异常状态。

这种“敏感操作确认机制”，不是安全噱头，而是工程落地的必要设计——它让自动化真正可信、可控、可审计。

5. 阶段四：关注动作达成与状态验证——不止于点击，更确认结果

很多自动化工具止步于“点了关注按钮”，但 Open-AutoGLM 会继续验证：

5.1 动作执行后，再次截图分析

点击“关注”按钮后，它等待 1.5 秒（防 UI 渲染延迟），再截最新屏幕
检查原“关注”按钮区域：文字是否变为“已关注”？图标颜色是否由灰色变为红色？
同时检查顶部状态栏：是否有“已关注” toast 提示？（有则加分，无则不否定）

5.2 多维度交叉验证

验证维度	检查内容	是否满足
UI 文本变化	按钮文字从“关注”变为“已关注”
图标状态	右侧心形图标填充为实心红色
网络请求日志	ADB logcat 捕获到`follow_success`日志
后台数据	通过抖音开放 API 查询该账号粉丝数是否+1	（需额外配置）

本次实测中，前 3 项均满足，系统输出：

[SUCCESS] 已成功关注抖音号 dycwo11nt61d（ID: 7890123456）

这意味着，它不只是模拟了点击动作，而是确认了业务目标真正达成——这才是 AI Agent 区别于传统 RPA 的核心价值。

6. 阶段五：真实效果对比——比人快？比脚本稳？

我们做了三组横向对比测试（同一台手机、同一网络、同一抖音版本），结果如下：

测试项目	人工操作	Python 脚本（ADB 固定坐标）	Open-AutoGLM
首次成功率	100%	62%（坐标偏移导致点错）	94%（动态识别修复）
平均耗时	38 秒	22 秒	48 秒
适配新机型	无需调整	需重测所有坐标	开箱即用（仅需 ADB 连接）
应对弹窗	自然处理	直接失败或误点	主动暂停+人工确认
错误可读性	—	`ERROR: click at (320,850) failed`	`[PAUSE] 检测到登录弹窗...`

可以看到：

它不是为了比人快，而是为了“让人不用动手”；
它比脚本慢一点，但稳得多——多花的 26 秒，换来的是 32% 的成功率提升和 100% 的跨机型兼容；
它的错误提示，是给开发者看的，不是给机器看的——清晰说明“为什么停”“下一步要什么”，大幅降低调试成本。

7. 总结：这不是一个工具，而是一个可对话的手机助手

回顾这整个“关注抖音号”的过程，Open-AutoGLM 展现出的，远不止是“自动化”三个字：

它能听：把一句口语化指令，拆解成可执行的原子动作；
它能看：不依赖坐标、不迷信模板，真正理解界面语义；
它能想：根据屏幕反馈动态调整策略，滑动、重试、暂停、确认；
它能验：不满足于“点下去”，而追求“做成了”；
它能守：对登录、支付、删除等高危操作主动设防，把控制权交还给人。

这已经不是“让手机听话”，而是“让手机有常识”。

如果你正在寻找一个能真正理解移动 App、能稳定执行复杂任务、能与你自然对话的 AI 助手——Open-AutoGLM 不是未来概念，它就在这里，正用一次关注抖音号的操作，向你证明：Agent 时代，已经从 Demo 走进了真实手机屏幕。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM效果展示：AI自动关注抖音账号全过程