news 2026/4/23 14:13:48

Open-AutoGLM效果展示:AI自动关注抖音账号全过程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM效果展示:AI自动关注抖音账号全过程

Open-AutoGLM效果展示:AI自动关注抖音账号全过程

你有没有试过——在手机上一边刷抖音,一边想:“要是能让我刚看到的这个博主,AI自动帮我点开、进主页、再点关注,该多省事?”
现在,这不是设想。Open-AutoGLM 真的做到了:你只说一句自然语言指令,它就能接管你的安卓手机,看清屏幕、理解界面、规划动作、精准点击,全程无需手动操作。
更关键的是,它不是“录屏回放”或“固定脚本”,而是真正看懂了当前页面——比如识别出“关注”按钮在哪、判断出账号是否已登录、发现弹窗后主动暂停并等你确认……这种“像人一样思考+像机器人一样执行”的能力,正是 AI Agent 走向实用的关键一步。

本文不讲原理、不堆参数、不列配置项。我们直接进入最真实、最直观的效果现场:从零开始,让 Open-AutoGLM 完整走一遍“打开抖音 → 搜索指定抖音号 → 进入主页 → 点击关注”的全流程,并全程记录每一步发生了什么、屏幕怎么变、AI怎么想、哪里卡顿、哪里惊艳。


1. 效果总览:一句话完成四步操作,全程自动无干预

先看结果——这是整个流程结束后,手机屏幕上最终呈现的状态:

  • 抖音 App 已启动并处于前台
  • 搜索栏中已自动输入“dycwo11nt61d”并完成搜索
  • 搜索结果页第一项即为该抖音号,且已成功点击进入其个人主页
  • 主页右上角“关注”按钮文字变为“已关注”,状态图标亮起

整个过程耗时约 48 秒(含模型推理、ADB 操作、界面加载等待),期间你只需在电脑终端敲下一行命令,然后看着手机自己动起来。

这不是预设路径的机械点击,而是动态感知 + 实时决策的结果。
当 AI 发现搜索结果页没有立即出现“dycwo11nt61d”,它会主动滑动页面查找;当它看到“未登录”提示弹窗,会立刻停止执行并弹出确认提示;当它识别出“关注”按钮被遮挡(如底部导航栏重叠),会先上滑再点击——这些细节,才是效果真实的分水岭。

下面,我们把这 48 秒拆解成可验证、可复现、可感知的五个关键阶段,带你亲眼见证 AI 是如何“看”、“想”、“做”的。


2. 阶段一:指令解析与意图理解——听懂你说的每一字

当你在终端输入这条命令:

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://192.168.1.100:8800/v1 \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

Open-AutoGLM 的第一步,不是去点手机,而是在云端模型里“读”你的这句话

它不会简单地按关键词切分,而是进行三层理解:

2.1 动作意图识别

  • “打开抖音” → 启动目标 App(包名com.ss.android.ugc.aweme
  • “搜索抖音号为:dycwo11nt61d” → 定位搜索入口 → 输入文本 → 执行搜索
  • “并关注他” → 在结果页识别目标账号 → 进入主页 → 点击关注按钮

2.2 实体抽取与上下文绑定

  • 抖音号dycwo11nt61d被准确提取为唯一标识符,而非普通字符串
  • “他”被绑定到前文提到的抖音号,避免歧义(例如不会误认为是当前登录账号)
  • “关注”被映射为 UI 元素语义标签,而非固定坐标(所以换机型、换分辨率也不怕)

2.3 可执行性预判

模型还会快速评估任务可行性:

  • 当前设备是否已安装抖音?→ 通过 ADB 查询pm list packages | grep aweme
  • 是否已登录账号?→ 若未登录,后续将触发人工确认环节(后文详述)
  • 屏幕是否处于锁屏状态?→ 自动唤醒并解锁(需提前授权)

这一阶段全程在 1.2 秒内完成,不依赖任何本地规则引擎,全部由autoglm-phone-9b多模态模型实时生成结构化任务计划(Plan Tree)。你可以把它理解为:AI 先在脑子里画了一张操作地图,才让手指真正动起来。


3. 阶段二:屏幕感知与界面理解——AI真的“看见”了你的手机

当模型确认可以执行后,它立刻通过 ADB 截图获取当前手机画面(PNG 格式,分辨率自适应),并将图像与上一步生成的任务计划一起送入视觉语言模型(VLM)。

这不是 OCR 文字识别,而是端到端的界面语义理解。我们截取其中三张关键截图,看看它到底“看懂”了什么:

3.1 初始状态:桌面页

![桌面截图]

  • 模型识别出:顶部状态栏(时间/信号)、底部 Dock 栏(含抖音图标)、应用网格区域
  • 它没有去数第几行第几列,而是直接定位到“抖音”App 图标,并输出点击坐标(x: 320, y: 850)(以屏幕左上为原点)
  • 验证方式:用adb shell input tap 320 850手动执行,确实打开抖音

3.2 抖音首页:底部导航栏

![抖音首页截图]

  • 模型识别出:底部 5 个 Tab(首页、朋友、搜索、消息、我)
  • 它知道“搜索”Tab 在第 3 个位置,但不依赖顺序编号,而是通过图标语义(放大镜图标 + “搜索”文字)匹配
  • 输出动作:点击搜索 Tab → 坐标(x: 540, y: 2100)(适配全面屏)

3.3 搜索页:输入框与键盘

![搜索页截图]

  • 模型识别出:顶部搜索框(带“抖音号”提示文字)、软键盘已弹出、光标在输入框内闪烁
  • 它判断此时可直接输入,于是调用adb shell input text "dycwo11nt61d"
  • 输入完成后,识别出右侧“搜索”按钮(蓝色圆角矩形,含放大镜图标),点击执行

关键细节:当软键盘遮挡搜索按钮时,模型会先发送adb shell input keyevent 4(返回键)收起键盘,再点击——这个“条件判断+动作组合”,是纯规则脚本极难覆盖的。

所有这些识别,都基于模型对数万张安卓界面截图的多模态训练,它认的不是像素,而是“功能区块”和“交互意图”。


4. 阶段三:动态执行与容错响应——不卡壳、不盲点、不硬撞

这是最体现 AI Agent 成熟度的部分:它不假设一切顺利,而是边走边看、边看边调。

我们还原真实执行中遇到的两个典型场景:

4.1 场景一:搜索结果未首屏显示

抖音搜索dycwo11nt61d后,结果页默认只显示前 3 个账号。而目标账号实际排在第 7 位。

  • 模型首先在首屏查找含dycwo11nt61d文字的卡片 → 未找到
  • 它没有报错退出,而是生成新动作:“向下滑动半屏” →adb shell input swipe 500 1500 500 800
  • 再次截图分析 → 仍未找到 → 继续滑动
  • 第三次截图时,目标卡片完整出现在屏幕中央 → 精准点击头像区域

整个过程无预设滑动次数,全靠视觉反馈驱动,类似人眼扫视。

4.2 场景二:登录状态弹窗拦截

当我们第一次运行该指令时,抖音检测到未登录,弹出“请先登录”的半透明浮层,覆盖了整个页面。

  • 模型截图后,立即识别出该弹窗(标题“请先登录”+两个按钮“取消”“去登录”)
  • 它没有强行点击下方被遮挡的“关注”按钮,而是主动暂停执行,并在终端输出:
    [PAUSE] 检测到登录弹窗,需人工确认。 按 Enter 继续(将点击“去登录”),或 Ctrl+C 中断。
  • 你按下回车后,它才点击“去登录”,跳转至登录页;若你选择中断,流程干净退出,不残留任何异常状态。

这种“敏感操作确认机制”,不是安全噱头,而是工程落地的必要设计——它让自动化真正可信、可控、可审计。


5. 阶段四:关注动作达成与状态验证——不止于点击,更确认结果

很多自动化工具止步于“点了关注按钮”,但 Open-AutoGLM 会继续验证:

5.1 动作执行后,再次截图分析

  • 点击“关注”按钮后,它等待 1.5 秒(防 UI 渲染延迟),再截最新屏幕
  • 检查原“关注”按钮区域:文字是否变为“已关注”?图标颜色是否由灰色变为红色?
  • 同时检查顶部状态栏:是否有“已关注” toast 提示?(有则加分,无则不否定)

5.2 多维度交叉验证

验证维度检查内容是否满足
UI 文本变化按钮文字从“关注”变为“已关注”
图标状态右侧心形图标填充为实心红色
网络请求日志ADB logcat 捕获到follow_success日志
后台数据通过抖音开放 API 查询该账号粉丝数是否+1(需额外配置)

本次实测中,前 3 项均满足,系统输出:

[SUCCESS] 已成功关注抖音号 dycwo11nt61d(ID: 7890123456)

这意味着,它不只是模拟了点击动作,而是确认了业务目标真正达成——这才是 AI Agent 区别于传统 RPA 的核心价值。


6. 阶段五:真实效果对比——比人快?比脚本稳?

我们做了三组横向对比测试(同一台手机、同一网络、同一抖音版本),结果如下:

测试项目人工操作Python 脚本(ADB 固定坐标)Open-AutoGLM
首次成功率100%62%(坐标偏移导致点错)94%(动态识别修复)
平均耗时38 秒22 秒48 秒
适配新机型无需调整需重测所有坐标开箱即用(仅需 ADB 连接)
应对弹窗自然处理直接失败或误点主动暂停+人工确认
错误可读性ERROR: click at (320,850) failed[PAUSE] 检测到登录弹窗...

可以看到:

  • 它不是为了比人快,而是为了“让人不用动手”;
  • 它比脚本慢一点,但稳得多——多花的 26 秒,换来的是 32% 的成功率提升和 100% 的跨机型兼容;
  • 它的错误提示,是给开发者看的,不是给机器看的——清晰说明“为什么停”“下一步要什么”,大幅降低调试成本。

7. 总结:这不是一个工具,而是一个可对话的手机助手

回顾这整个“关注抖音号”的过程,Open-AutoGLM 展现出的,远不止是“自动化”三个字:

  • 能听:把一句口语化指令,拆解成可执行的原子动作;
  • 能看:不依赖坐标、不迷信模板,真正理解界面语义;
  • 能想:根据屏幕反馈动态调整策略,滑动、重试、暂停、确认;
  • 能验:不满足于“点下去”,而追求“做成了”;
  • 能守:对登录、支付、删除等高危操作主动设防,把控制权交还给人。

这已经不是“让手机听话”,而是“让手机有常识”。

如果你正在寻找一个能真正理解移动 App、能稳定执行复杂任务、能与你自然对话的 AI 助手——Open-AutoGLM 不是未来概念,它就在这里,正用一次关注抖音号的操作,向你证明:Agent 时代,已经从 Demo 走进了真实手机屏幕。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:34:38

从0开始学数字人制作,Live Avatar超详细教程

从0开始学数字人制作,Live Avatar超详细教程 1. 这不是“点一下就出数字人”的玩具,但值得你认真学 你可能已经见过那些几秒钟生成的数字人视频——眨眼、微笑、说话,像真人一样自然。但当你真正想自己动手做一个属于自己的数字人时&#x…

作者头像 李华
网站建设 2026/4/23 11:36:31

SpringBoot+Vue 物流管理系统管理平台源码【适合毕设/课设/学习】Java+MySQL

摘要 随着电子商务和全球贸易的快速发展,物流行业在现代经济体系中扮演着至关重要的角色。高效的物流管理系统能够显著提升企业运营效率,降低运输成本,并优化客户体验。然而,传统的物流管理方式通常依赖人工操作和纸质记录&#x…

作者头像 李华
网站建设 2026/4/18 23:59:15

2026 年依然活跃、适合低配置硬件的 16 款轻量级 Linux 发行版

在硬件更新节奏越来越快的今天,许多电脑在性能上已经无法流畅运行主流操作系统,但这并不意味着它们完全失去了使用价值。 通过安装合适的轻量级 Linux 发行版,这些老旧设备依然可以胜任日常办公、上网、学习和多媒体播放等基础任务。 相比主流桌面系统,轻量级 Linux 发行版…

作者头像 李华
网站建设 2026/4/23 13:03:44

VOFA+串口协议解析应用场景全解析(含实例)

以下是对您提供的博文《VOFA+串口协议解析应用场景全解析(含实例)》的 深度润色与专业重构版本 。本次优化严格遵循您的核心要求: ✅ 彻底去除AI生成痕迹,语言自然、老练、有“人味”——像一位十年嵌入式老兵在技术分享会上娓娓道来; ✅ 打破模板化结构,摒弃“引言/…

作者头像 李华
网站建设 2026/4/23 13:01:26

VibeThinker-1.5B实战:用小模型破解Codeforces高分题

VibeThinker-1.5B实战:用小模型破解Codeforces高分题 你有没有试过在Codeforces比赛倒计时15分钟时,卡在一道动态规划题上?不是不会写状态转移,而是根本没想清楚子问题该怎么定义。这时候,如果能有个懂算法、不废话、…

作者头像 李华