Tandem Browser：基于AI与无障碍树的下一代浏览器自动化实践-深圳市維司達科技有限公司

1. 项目概述：当AI成为你的浏览器副驾驶

如果你和我一样，每天都在和各种SaaS后台、内部管理系统、电商平台打交道，并且幻想着“要是能有个助手帮我自动处理这些重复的网页操作就好了”，那么Tandem Browser的出现，可能会让你眼前一亮。这不是一个简单的浏览器自动化工具，也不是一个悬浮在侧边栏的AI聊天机器人。它是一个从根本上重新思考了“人机协作”界面的本地优先浏览器，将AI的能力直接编织进了浏览器运行时本身。

简单来说，Tandem Browser是一个基于Electron和Chromium构建的浏览器，但它内置了一个强大的“代理层”。这个代理层可以读取你当前页面的无障碍访问树、监听实时的网络请求、甚至动态重写页面的UI——而这一切，都发生在你真实的、已登录的浏览器会话中。你和AI共享同一个浏览器实例，共享相同的标签页、Cookie、登录状态和历史记录。当AI需要处理一个多步骤任务时（比如登录邮箱、查找特定邮件、下载附件、然后退出），它可以像真人一样操作浏览器，在遇到验证码或模糊指令时，又能无缝地将控制权交还给你。这种“同处一个运行时”的设计理念，是它区别于市面上所有“AI+浏览器”方案的核心。

2. 核心设计理念：为什么是“Tandem”？

“Tandem”意为“双人自行车”，形象地诠释了其设计哲学：人和AI并肩协作，共同驱动前进。传统的自动化方案，无论是RPA（机器人流程自动化）还是基于Playwright/Puppeteer的脚本，都像是预先写好乐谱的自动演奏钢琴。它们在一个“无头”的、纯净的浏览器环境中运行，缺乏真实用户的上下文，也无法处理意料之外的交互（比如突然弹出的二次验证）。而侧边栏AI聊天机器人，则像是站在钢琴旁的指挥家，只能通过语言描述来指导你的双手（用户）去弹奏，效率低下且隔阂感强。

Tandem Browser选择了一条更激进但也更自然的路：让AI直接坐上驾驶座，成为你的副驾驶。这个副驾驶能直接看到仪表盘（DOM和无障碍树）、听到引擎声（网络请求）、并且和你共用一套控制系统（浏览器API）。这种设计带来了几个革命性的优势：

2.1 自动化真实世界，无需API

这是最吸引我的点。我们日常使用的绝大多数SaaS（如Gmail、银行网银、公司内部的CRM/OA）都没有提供完善的公开API。传统自动化在这里寸步难行。Tandem的代理可以直接在你的真实登录会话中操作这些网站。这意味着，你可以让AI帮你自动整理Gmail收件箱、从银行门户网站下载月度对账单、或者在内部管理系统中批量处理工单——只要你能手动在浏览器里完成，AI就能在Tandem里帮你完成，无需等待官方开放API。

实操心得：在测试中，我让Tandem代理登录了一个需要短信验证码的电商后台。流程是：我手动输入用户名密码并完成首次短信验证登录（保持会话），然后AI接管，执行了查询订单、导出报表的任务。关键在于，整个过程中会话Cookie是持续有效的，AI是在“我”的上下文中工作。

2.2 超越像素的“视觉”理解

传统的基于计算机视觉（CV）或屏幕截图的自动化方案非常脆弱。页面布局稍改，按钮位置偏移几个像素，整个流程就可能崩溃。Tandem的代理不依赖像素坐标，而是直接与浏览器的无障碍访问树（Accessibility Tree）和DOM（文档对象模型）交互。

无障碍访问树是浏览器为辅助技术（如屏幕阅读器）提供的页面语义化表示。它包含了元素的角色（按钮、链接、文本框）、名称、状态和层级关系。通过@refID，代理可以精准地定位到“那个叫做‘提交’的按钮”，而不是“距离顶部235px，左侧480px的那个彩色矩形”。这大大提升了自动化的鲁棒性和可读性。

2.3 真正的“人在回路”与协同浏览

AI不是全知全能的。遇到验证码、需要主观判断的选择、或者高风险操作（如确认支付）时，必须有人介入。Tandem设计了明确的“交还”机制。代理可以主动暂停，通过通知或高亮提示用户，用户处理完毕后，代理可以从中断处继续。更酷的是，你们可以真正地“协同浏览”：你在一个标签页看新闻，AI在另一个标签页帮你做研究并实时摘要；或者，AI在你正在浏览的商品列表页上，动态注入一个计算“每平方米价格”的脚本列，而你完全无需离开当前页面。

3. 架构与安全：信任的基石

让一个AI代理拥有对你真实浏览器的完全访问权，听起来非常危险。Tandem团队显然深知这一点，因此他们将安全性作为核心架构而非事后补丁。其安全模型是一个包含8层防御的纵深体系：

网络盾：内置域名/IP黑名单，阻止代理访问已知的恶意或跟踪域名。
出站守卫：扫描所有由代理发起的POST请求体，防止意外泄露凭证或敏感数据。
JavaScript AST分析：对代理试图执行的运行时脚本进行抽象语法树级别的静态分析，检测可疑模式。
标签页行为监控：每个标签页的代理活动都被独立监控和限制。
守门人通道：为模糊或高风险操作设立审批通道，强制要求人工确认。
提示词注入防御：对从网页内容中提取并可能用于AI提示词的文本进行清洗，防止恶意页面通过隐藏文字“催眠”AI。
层隔离：这是最关键的一层。网页中运行的JavaScript（包括各种指纹识别脚本）完全无法探测到代理层的存在。代理层和渲染层被严格分离，网页无法得知自己正被AI操作。
人在回路：作为最后一道防线，任何被安全规则拦截或标记为高风险的动作都会触发人工干预。

这种设计意味着，即使你让AI代理访问一个恶意网站，该网站也很难通过技术手段反向攻击或控制这个代理。Tandem将浏览器本身变成了一个安全的“沙箱”，而AI是在这个沙箱的管理员控制区内工作。

4. 快速上手指南：从下载到第一个自动化任务

Tandem目前对macOS（Apple Silicon）的支持最为完善，提供了签名的安装包。Linux可以源码编译，Windows则主要作为远程代理主机来测试。

4.1 安装与首次运行

对于macOS用户，过程非常简单：

从GitHub Releases页面下载最新的.dmg文件。
打开镜像，将Tandem Browser拖入“应用程序”文件夹。
首次运行时，系统可能会提示“无法打开，因为无法验证开发者”。此时需要进入系统设置 -> 隐私与安全性，在底部找到并允许运行。
启动后，你会看到一个风格简洁的浏览器界面，左侧有侧边栏。

4.2 连接你的AI代理（核心步骤）

Tandem本身不提供AI大脑，它是一个“躯体”。你需要为其连接一个“大脑”，即任何支持MCP（Model Context Protocol）或HTTP API的AI代理。这包括：

云端模型：Claude（通过Claude Desktop/Claude Code）、ChatGPT、Gemini API。
本地模型：通过Ollama、LM Studio运行的本地大语言模型。
自定义脚本：任何能发送HTTP请求的脚本。

连接的核心入口在设置（Settings） -> 已连接代理（Connected Agents）。

场景一：AI代理与Tandem在同一台电脑上（本地连接）这是最简单的方式，适合个人使用。

在“Connected Agents”界面，选择On this machine。
Tandem会生成一段连接指令（包含一个临时的配对码）。
复制这段指令，粘贴到你的AI代理配置中。
- 如果你使用Claude Desktop或Cursor（支持MCP），这段指令通常是一个JSON配置片段，你需要将其添加到你的MCP客户端配置文件中。
- 如果你使用HTTP API，指令中会包含本地API服务器的地址（通常是http://127.0.0.1:8765）和一个令牌（Token）。你可以用curl或任何HTTP客户端进行测试。

场景二：AI代理在另一台电脑上（远程连接）这适合团队协作或需要强大算力的场景。Tandem使用Tailscale（一个基于WireGuard的零配置组网工具）来建立安全的点对点连接。

确保Tandem所在电脑和AI代理所在电脑都安装了Tailscale并登录到同一个网络（Tailnet）。
在Tandem的“Connected Agents”界面，选择On another machine。
Tandem会自动检测到本机的Tailscale IP地址，并生成针对远程连接的指令块。
将指令块复制到远程AI代理上。远程代理会通过Tailscale网络访问Tandem的发现页面（/agent），完成配对并获取永久令牌。

注意事项：远程连接时，Tandem的服务不会暴露在公网上，所有通信都通过加密的Tailscale隧道进行，安全性很高。确保你的Tailscale网络访问控制策略是收紧的。

4.3 你的第一个自动化指令

连接成功后，你的AI代理就拥有了253种工具的能力。让我们从一个简单的任务开始，验证一切是否正常。

假设你连接的是Claude Code，你可以直接在聊天框中输入自然语言指令：

“请打开一个新的标签页，导航到GitHub官网，然后搜索‘tandem-browser’这个仓库。”

Claude Code会通过MCP调用Tandem提供的工具序列：

tabs.create- 创建新标签页。
tabs.navigate- 导航至https://github.com。
page.wait_for_load- 等待页面加载完成。
accessibility.snapshot- 获取页面无障碍树，定位搜索框。
accessibility.fill_by_ref- 通过@refID向搜索框填入“tandem-browser”。
accessibility.click_by_ref- 点击搜索按钮。

你会在Tandem浏览器中实时看到这些操作被一步步执行。如果页面需要登录，AI会识别出登录表单并提示你（人类）提供凭证，或在你的会话已登录的情况下直接继续。

5. 深入核心功能与API能力

Tandem Browser的代理层通过一套极其丰富的API暴露能力，涵盖浏览器的方方面面。以下是几个关键功能领域的深度解析：

5.1 导航、输入与内容获取

代理不仅能进行基础的点击和输入，还能理解页面状态。page.wait_for_load工具会智能等待页面到达“网络空闲”和“DOM稳定”状态，而不是简单的固定延时，这比传统自动化脚本的sleep(5)要可靠得多。

accessibility.snapshot返回的不仅仅是元素，还有其语义角色和关系。例如，AI可以理解“这是一个包含三个选项的单选按钮组，当前选中了第二项”，从而做出更智能的交互决策。

实操示例：自动填写复杂表单

// 这是一个概念性示例，展示AI如何利用工具链思考 1. 导航到表单页。 2. 获取无障碍快照。 3. 识别出所有 `textbox` 类型的元素。 4. 根据每个文本框的 `aria-label` 或相邻的 `label` 文本来映射字段名（如“Full Name”, “Email”）。 5. 从任务上下文或询问用户获取对应数据。 6. 使用 `fill_by_ref` 逐个填写。 7. 识别并点击提交按钮。

这个过程完全基于语义，不依赖具体的HTML ID或CSS选择器，因此即使网站前端重构，只要无障碍树结构保持，自动化脚本依然有效。

5.2 标签页、工作区与会话管理

代理可以创建、切换、关闭标签页，更能管理工作区。你可以让AI在专属的工作区中运行后台任务，比如监控某个仪表盘，而不干扰你主工作区的浏览。

会话隔离是一个强大功能。左侧边栏可以固定登录一些常用服务（如Slack、Discord、企业微信）。这些会话与主浏览会话隔离。AI代理可以被授权访问某个特定的侧边栏应用会话，从而帮你自动读取Slack频道消息或发送通知，而不会混淆Cookie。

5.3 网络检查与API发现

这是开发者的利器。代理可以监听页面发出的所有网络请求（network.get_log）。你可以让AI“分析这个页面加载后发起了哪些API请求，并告诉我第三个请求的响应体结构”。这对于逆向分析网站行为、学习API接口格式非常有帮助。代理甚至能进行请求模拟（network.mock_request），用于测试或拦截修改特定请求。

5.4 实时UI重写与预览

这是Tandem最令人兴奋的功能之一。代理可以使用previews.create和previews.update工具，在浏览器内创建实时的HTML预览页面。更强大的是，它可以通过dom.execute_script向任意现有页面注入JavaScript脚本。

使用场景：你正在浏览一个房产列表网站，页面只显示了总价。你可以对AI说：“给这个列表的每一行加上一个‘每平方米单价’的列。” AI会：

获取当前页面的HTML和列表数据。
计算每个房源的单价。
动态注入一段CSS和JavaScript，修改DOM，插入新列并填入计算好的值。
这一切发生时，你无需刷新页面，可以继续滚动浏览。

5.5 工作流、任务与锁机制

对于长周期、多步骤的任务，Tandem提供了工作流管理。代理可以创建多步骤任务，某些步骤可以设置为“需要批准”。例如，“每周一早上自动登录公司ERP，下载销售报告，通过邮件发送给我”这个任务，在“登录”和“发送邮件”这两个高风险步骤前可以暂停，等待你的确认。

tab.lock工具允许代理“锁定”一个标签页，防止其他代理或意外的人工操作干扰其正在进行的自动化流程。这对于保证任务原子性非常重要。

6. 与Playwright/ Puppeteer的深度对比

很多开发者会问：我用Playwright写脚本也能自动化，为什么要用Tandem？

特性维度	Playwright/Puppeteer	Tandem Browser
浏览器上下文	全新的、无状态的浏览器实例	用户真实的、有状态的浏览器（含Cookie、扩展、历史）
安全模型	无。脚本对浏览器有完全控制权。	8层纵深防御，重点防御来自页面对代理的攻击。
人机协作	困难。需要自己设计中断和恢复逻辑。	原生支持。代理可主动交还控制权，用户可随时介入。
部署模式	通常作为后端服务运行在服务器。	本地优先，也可通过Tailscale远程连接。
感知能力	仅限于DOM和网络（需配置）。	全方位感知：DOM、无障碍树、网络、控制台、性能、存储。
隐蔽性	可被网站通过WebDriver属性等检测。	高隐蔽性。网站看到的是普通Chrome浏览器，无法检测代理层。
使用门槛	需要编程能力，编写和维护脚本。	自然语言驱动。可通过AI直接指挥，也可用HTTP API编程。

核心区别在于哲学：Playwright是工程师用来控制浏览器的工具；Tandem是最终用户（及他们的AI助手）用来协作完成工作的环境。Tandem接管了会话管理、安全、人机交接等复杂问题，让你和AI能更专注于任务本身。

7. 常见问题与故障排查实录

在实际使用和测试中，我遇到了一些典型问题，以下是排查思路和解决方案：

7.1 连接问题：AI代理无法连接到Tandem

症状：在AI客户端（如Claude Code）中配置后，提示连接失败或无法找到工具。
排查步骤：
1. 检查Tandem是否运行：确保Tandem Browser应用已启动。
2. 验证连接方式：
  - 本地连接：在浏览器地址栏输入http://127.0.0.1:8765/status。应返回JSON状态信息。如果失败，检查Tandem设置中本地API服务是否启用。
  - 远程连接：首先在Tandem主机上，通过Tailscale IP执行上述检查。然后在代理主机上，尝试ping <Tandem的Tailscale IP>并访问http://<Tailscale IP>:8765/agent查看发现页面是否正常。
3. 检查令牌：确保使用的Bearer Token是正确的。对于远程配对，Token在配对成功后是永久的，除非在“Connected Agents”界面被撤销。
4. 查看日志：Tandem应用内建有日志输出（通常在开发者工具控制台），连接时会有详细记录。

7.2 自动化操作失败：元素找不到或操作无效

症状：AI报告无法点击某个按钮或找不到输入框。
排查步骤：
1. 确认页面加载完成：复杂的单页应用（SPA）加载慢。让AI在操作前先使用page.wait_for_load工具，或针对SPA使用page.wait_for_network_idle。
2. 使用无障碍树而非纯DOM：有些元素在DOM中隐藏或由Shadow DOM封装，但在无障碍树中可见。指示AI优先使用accessibility.snapshot和accessibility.find_by_semantics来定位元素。
3. 检查iframe：目标元素可能位于<iframe>内。AI需要先使用dom.get_frame或accessibility.snapshot（其结果包含框架信息）来切换到正确的框架上下文。
4. 启用“高亮模式”：在Tandem中，你可以让AI在操作前高亮它打算交互的元素，这有助于视觉确认定位是否正确。

7.3 性能问题：自动化响应缓慢

症状：AI执行一系列操作时，浏览器反应很慢。
排查步骤：
1. 减少并发操作：虽然支持多标签页，但避免让一个代理在短时间内对过多标签页发起密集操作。这可能会阻塞浏览器主进程。
2. 检查扩展程序：某些浏览器扩展（特别是广告拦截、隐私保护类）可能会干扰页面的正常加载和脚本执行。尝试在无痕模式或禁用扩展的配置下测试。
3. 使用更轻量的本地模型：如果你连接的是本地Ollama模型，复杂的页面解析（如大段无障碍树）可能给模型带来较大负担。考虑使用能力更强的模型，或让AI先提取关键信息再处理。

7.4 安全警告与操作被阻止

症状：AI尝试进行某些操作（如下载文件、填写特定表单字段）时被阻止，需要人工批准。
理解与处理：这是设计特性，不是bug。Tandem的安全层（特别是Gatekeeper）在起作用。
- 仔细阅读提示：Tandem会明确告知为什么操作被阻止（例如，“尝试向包含‘password’字段的表单填写数据”）。
- 评估风险：在“Connected Agents”界面或弹出的通知中，你可以查看被挂起的操作并选择“批准”或“拒绝”。
- 调整安全策略：对于你完全信任的代理和网站，可以在设置中适当调整特定安全规则的严格程度（谨慎操作）。

8. 进阶使用场景与未来展望

经过一段时间的深度使用，我认为Tandem Browser在以下几个场景有巨大潜力：

个人知识管理与研究：让AI作为你的研究助理。你可以口述一个主题，AI自动打开多个标签页（学术网站、新闻、论坛），并行阅读、摘要、对比信息，并将最终整理好的报告生成一个预览页供你审阅。整个过程你无需切换标签页。

跨平台工作流自动化：结合Zapier或n8n等工具，将Tandem作为“网页操作”节点。例如，当CRM有新的潜在客户时，自动触发Tandem代理去搜索该客户公司的公开信息并录入CRM备注。

无障碍测试与开发：开发者可以利用AI代理，模拟屏幕阅读器等辅助工具的用户体验，自动遍历页面并报告潜在的无障碍问题，比人工检查更高效。

内部软件培训与支持：为新员工创建一个AI导览。AI可以引导新员工操作复杂的内网系统，在每一个步骤提供提示，并实时检查操作是否正确。

Tandem Browser目前仍处于“开发者预览”阶段，但它所展示的“人机共生”的浏览器未来已经足够清晰。它的开源模式和清晰的架构，也吸引了众多开发者关注。随着MCP协议的普及和本地AI模型的进步，一个由用户完全掌控、AI深度集成、安全可靠的个人计算环境，或许正在成为现实。对于任何厌倦了重复性网页操作、或渴望探索下一代人机交互界面的开发者和高级用户来说，Tandem Browser都是一个值得立即下载、亲手尝试的颠覆性工具。它的价值不在于替代你，而在于如何更好地增强你。