news 2026/4/23 21:04:57

肉包 Roubao:首款无需电脑的开源 AI 手机自动化助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
肉包 Roubao:首款无需电脑的开源 AI 手机自动化助手

项目背景:2025 年 12 月,字节跳动联合中兴发布了「豆包手机助手」,可自动操作手机完成复杂任务。但首批工程机一机难求,二手市场价格居高不下。

于是有了「肉包」—— 一个完全开源、基于视觉语言模型(VLM)的 AI 手机自动化助手。

名字来源很简单:作者不爱吃素。


一、项目亮点

  • 无需电脑:完全摆脱 ADB 数据线与 PC 端 Python 环境,安装 App 即可使用。
  • 原生 Android 实现:基于 Kotlin 开发,截图、分析、决策、执行全部在手机本地完成。
  • 多 Agent 协作机制:借鉴 Claude Code 的设计思想,采用 Tools / Skills 双层架构,实现任务规划与执行解耦。
  • 高度可定制:支持通义千问、GPT-4V、Claude 以及本地 Ollama 等多种模型后端。

二、方案对比

特性肉包(Roubao)豆包手机助手其他开源方案
是否需要电脑❌ 不需要❌ 不需要✅ 多数需要
是否依赖专用硬件❌ 不需要✅ 需要(3499+)❌ 不需要
实现语言✅ Kotlin(原生)✅ 原生❌ 多为 Python
是否开源✅ MIT❌ 闭源✅ 开源
架构设计✅ Tools / Skills 双层❓ 未公开❌ 通常无明确分层
自定义模型✅ 支持❌ 仅豆包模型⚠️ 部分支持

三、整体技术架构

肉包的核心设计理念,是将复杂的 GUI 自动化过程拆解为两个正交维度:

  • 原子能力(How):系统可以“做什么”
  • 用户意图(What):用户“想要什么”

3.1 Tools 层:原子能力集合

Tools 层负责执行最底层、可复用的物理或系统操作,包括但不限于:

  • search_apps:智能搜索已安装应用(支持拼音与语义匹配)。
  • deep_link:通过协议直接跳转到 App 内指定页面。
  • shell / http:执行系统命令或调用外部 HTTP API。
  • screenshot / tap / swipe:基础屏幕采集与触控操作能力。

这些工具本身不具备“目标感”,只负责可靠执行。

3.2 Skills 层:用户意图封装

Skills 层面向最终用户,负责将自然语言意图映射为可执行策略,支持两种核心模式:

  • Delegation(委托模式)
    直接通过 DeepLink 调用本身具备 AI 能力的应用(如小美、即梦等),特点是速度快、路径短、成功率高

  • GUI 自动化模式
    面向普通应用,采用“截图 → 分析 → 操作 → 再截图”的闭环,由 Agent 逐步完成任务。


四、界面与交互展示

肉包采用Material 3设计规范,整体风格简洁现代,支持流畅动画与完整的中英文双语切换。


五、关键依赖:为什么需要 Shizuku?

出于系统安全考虑,Android 普通应用默认无法:

  • 模拟其他应用的点击操作
  • 读取或分析其他应用的界面内容

传统解决方案通常依赖电脑端 ADB,这与“随时随地自动化”的目标相悖。

Shizuku提供了一种优雅且合规的中间方案:

  1. 用户仅需通过无线调试启动一次 Shizuku 服务;
  2. 肉包即可在非 Root 情况下获得ADB 级别能力
  3. 所有敏感信息(如 API Key)均采用AES-256-GCM加密存储;
  4. 一旦检测到支付类页面,系统会自动中止操作,避免风险。

六、快速上手

6.1 前置条件

  • Android 8.0 及以上设备
  • 已安装并启动 Shizuku
  • 一个可用的 VLM API Key(国内用户推荐使用阿里云百炼)

6.2 使用示例

直接对肉包输入自然语言指令,例如:

  • “帮我点个附近好吃的汉堡”
  • “打开网易云音乐并播放每日推荐”
  • “把我手机里最后一张照片发到微博”

七、项目路线图

已完成(v1.x)

  • 原生 Kotlin 核心框架
  • 智能应用分类与语义搜索
  • Delegation 快速路径支持

开发中(v2.0)

  • 无障碍服务混合模式(索引点击与坐标点击自动切换)
  • UI 树感知能力,减少纯视觉分析带来的误判
  • 宏脚本系统,支持操作序列的录制与回放

长期规划

  • 多应用协作,跨 App 联动完成复杂工作流
  • 边缘侧 AI,支持本地运行轻量级 VLM,实现离线自动化

八、开发者指南

如需自行构建与安装:

# 克隆仓库gitclone https://github.com/Turbo1123/roubao.gitcdroubao# 构建并安装./gradlew assembleDebug ./gradlew installDebug

项目地址:https://github.com/Turbo1123/roubao

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:15:04

实战案例:构建高可靠USB3.1传输速度工控U盘

实战案例:如何打造一款真正稳定的工业级USB3.1 U盘你有没有遇到过这样的场景?在一台运行中的PLC控制柜前,操作员插入U盘准备导出一周的运行日志——文件大小约5GB。结果等了将近两分钟才写完,系统还弹出“设备无法安全移除”的警告…

作者头像 李华
网站建设 2026/4/23 15:52:01

PWA渐进式网页应用:将anything-llm添加到桌面

PWA渐进式网页应用:将anything-llm添加到桌面 在本地AI助手日益成为个人与企业知识管理核心工具的今天,如何让一个功能强大的Web应用摆脱“浏览器标签”的束缚,真正融入用户的日常使用习惯?这正是许多开发者和用户共同面临的挑战。…

作者头像 李华
网站建设 2026/4/23 20:19:11

基于Python+大数据+SSM基于深度学习的蘑菇种类识别系统(源码+LW+调试文档+讲解等)/蘑菇识别系统/蘑菇种类鉴定系统/蘑菇分类识别系统/蘑菇品种识别系统

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/4/22 22:19:03

基于Python+大数据+SSM基于数据挖掘的旅游景点推荐系统(源码+LW+调试文档+讲解等)/旅游景点推荐/景点推荐系统/旅游推荐系统/旅游景点查询系统/旅游推荐平台/景点推荐平台

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/4/23 11:31:03

灰度发布策略:新版本上线的风险控制

灰度发布策略:新版本上线的风险控制 在今天这个AI驱动的软件时代,一次模型更新可能让智能助手变得更聪明,也可能让它突然“失忆”或答非所问。想象一下,一家企业刚上线新版知识库问答系统,员工纷纷反馈:“为…

作者头像 李华
网站建设 2026/4/23 14:43:41

电机驱动板散热设计:Altium Designer PCB实战解析

电机驱动板散热设计:Altium Designer PCB实战解析在工业自动化、机器人和新能源汽车的推动下,电机驱动系统正朝着高功率密度、小型化、长寿命的方向快速发展。而在这背后,一个常被忽视却至关重要的挑战悄然浮现——如何让PCB自己“会散热”&a…

作者头像 李华