AWS允许智能体控制云端虚拟桌面，但每次点击可能消耗50万Token-深圳市維司達科技有限公司

亚马逊云服务（AWS）近日宣布，将允许AI智能体接入其云端虚拟PC服务WorkSpaces。

该服务目前处于预览阶段，用户可通过亚马逊身份与访问管理（IAM）服务为智能体分配独立身份。智能体凭借相应凭证，可通过唯一的预签名URL访问WorkSpace，并操控云端PC上运行的任意应用程序。

AWS发言人表示，该公司建议开发者为每个智能体分配独立身份，以便更清晰地追踪其行为，并将智能体操作与人工操作加以区分。

据悉，智能体将"通过托管的MCP端点进行连接，该端点提供对桌面工具的受控访问，包括截图、鼠标控制和文本输入等功能"，同时"为开发者提供一个可控的交互界面，并通过安全机制限定智能体的可执行操作范围"。

为智能体配备独立云端PC的主要目的，是让其能够自动调用软件执行各类任务。云端或虚拟PC非常适合此类应用场景——它们可以按需创建与销毁，仅在智能体完成任务期间保持运行。此外，将智能体置于隔离的虚拟私有云中，也比直接接入局域网或数据中心更为安全可控。对于那些完全依赖物理PC、或不希望让智能体操控本地虚拟机的企业来说，云端PC也比自建本地虚拟化环境更为简便。

AWS支持智能体访问WorkSpaces提供的多种实例类型，配置从单核CPU、2GB内存的入门级小型实例，到配备GPU、32核vCPU和256GB内存的高性能实例应有尽有。亚马逊提供两种租用模式：一是按月收取固定费用、支持不间断使用；二是收取较低月费并按小时计费。

在云端PC智能体接入领域，AWS并非唯一玩家——微软同样专为智能体推出了Windows 365专属版本。

智能体操控PC依赖计算机视觉技术，通常通过截图或录屏来获取桌面内容，在"读取"画面后执行相应操作，包括点击、输入和滚动等。

AI编程工具公司Reflex认为，这一过程所需的计算代价不可小觑。该公司近期发布研究报告称，一个基于视觉的浏览器智能体仅完成一次下拉菜单点击操作，就需要消耗约50万个Token，使用智能体的成本可能是直接调用API的45倍。目前，Reflex已将相关基准测试工具开源至GitHub，供开发者自行验证其结论。

Reflex增长负责人Palash Awasthi在公司博客中表示，随着AI模型的持续进步，成本有望逐步降低，但他坚持认为，与API相比，智能体完成同一任务始终需要更多的操作步骤。

因此，在急于租用云端桌面之前，或许值得先仔细权衡一番。

Q&A

Q1：AWS的WorkSpaces智能体接入服务目前是否正式上线？

A：该服务目前仍处于预览阶段，尚未正式全面上线。用户可通过亚马逊身份与访问管理服务为智能体分配独立身份，智能体凭借相应凭证通过唯一预签名URL访问WorkSpace，并操控其中运行的应用程序。

Q2：为什么智能体控制虚拟桌面的成本这么高？

A：根据AI编程工具公司Reflex发布的研究报告，基于计算机视觉的智能体在操控桌面时，每次操作都需要大量Token来处理截图或录屏内容。仅点击一次下拉菜单，就可能消耗约50万个Token，整体成本可能是直接调用API的45倍。即便未来AI模型性能提升、成本有所下降，智能体完成任务所需的步骤仍会多于API调用。

Q3：AWS智能体云桌面服务和微软Windows 365有什么区别？

A：两者均支持AI智能体接入云端虚拟桌面，但各有侧重。AWS的WorkSpaces提供从入门级到高性能GPU实例的多种配置，并支持按月固定收费或按小时计费两种模式，适合不同规模的使用需求。微软则专门为智能体推出了Windows 365专属版本。目前两项服务在功能细节上的具体差异尚未完全公开披露。

AN/ALR-69A(V) 全数字化雷达告警接收机：技术演进、作战应用与认知电子战升级

目录摘要一、系统概述与发展背景 1.1 研制背景 1.2 系统定位二、系统架构与技术特征 2.1 总体架构设计 2.2 16通道宽带数字接收机 2.3 开放架构与COTS设计三、核心作战能力 3.1 态势感知与威胁识别 3.2 单平台无源定位（Single-Ship Geolocation&#…

李华

AI代理工作流框架Primer：结构化引导AI编码，从模糊想法到可运行软件

1. Primer项目概述：用AI代理构建真实软件的“脚手架”如果你和我一样，尝试过让AI编码助手（比如Claude Code、Cursor、Codex）去构建一个完整的项目，大概率会遇到一个共同的困境：任务描述太模糊，A…

李华

YOLO 系列：训练黑科技：YOLOv8 结合 CLIP 语义嵌入实现文本引导的开放词表检测微调

一、引言：从“闭集牢笼”到“开放世界”——目标检测的范式革命如果你正在看这篇文章，大概率已经踩过一个坑：辛辛苦苦训练了一个 YOLOv8 模型，上线后发现有一种新类型的目标需要检测，于是又重新标注数据、重新训练、重新部署……这种“有多少类就跑多少次流水线”的痛苦…

李华

数据驱动的LLM应用评估框架：从模块化到自动化实践

1. 项目概述：为什么我们需要一个数据驱动的LLM应用评估框架？如果你正在构建或维护一个基于大语言模型的应用，无论是RAG问答系统、代码生成工具还是智能体，一个绕不开的核心问题就是：我怎么知道它到底好不好用&#xff…

李华

基于X推荐算法的爆款内容预测工具：原理、部署与优化实战

1. 项目概述：一个基于X推荐算法的“爆款”预测工具如果你在X（原Twitter）上发过内容，肯定有过这样的困惑：为什么我精心构思的帖子没人看，而别人随手一发却能引爆全网？这背后到底有没有规律可循&a…

李华

免费在线PPT制作工具：如何在浏览器中创建专业演示文稿

AN/ALR-69A(V) 全数字化雷达告警接收机：技术演进、作战应用与认知电子战升级

AI代理工作流框架Primer：结构化引导AI编码，从模糊想法到可运行软件

YOLO 系列：训练黑科技：YOLOv8 结合 CLIP 语义嵌入实现文本引导的开放词表检测微调

数据驱动的LLM应用评估框架：从模块化到自动化实践

基于X推荐算法的爆款内容预测工具：原理、部署与优化实战