news 2026/5/7 3:06:28

AWS允许智能体控制云端虚拟桌面,但每次点击可能消耗50万Token

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AWS允许智能体控制云端虚拟桌面,但每次点击可能消耗50万Token

亚马逊云服务(AWS)近日宣布,将允许AI智能体接入其云端虚拟PC服务WorkSpaces。

该服务目前处于预览阶段,用户可通过亚马逊身份与访问管理(IAM)服务为智能体分配独立身份。智能体凭借相应凭证,可通过唯一的预签名URL访问WorkSpace,并操控云端PC上运行的任意应用程序。

AWS发言人表示,该公司建议开发者为每个智能体分配独立身份,以便更清晰地追踪其行为,并将智能体操作与人工操作加以区分。

据悉,智能体将"通过托管的MCP端点进行连接,该端点提供对桌面工具的受控访问,包括截图、鼠标控制和文本输入等功能",同时"为开发者提供一个可控的交互界面,并通过安全机制限定智能体的可执行操作范围"。

为智能体配备独立云端PC的主要目的,是让其能够自动调用软件执行各类任务。云端或虚拟PC非常适合此类应用场景——它们可以按需创建与销毁,仅在智能体完成任务期间保持运行。此外,将智能体置于隔离的虚拟私有云中,也比直接接入局域网或数据中心更为安全可控。对于那些完全依赖物理PC、或不希望让智能体操控本地虚拟机的企业来说,云端PC也比自建本地虚拟化环境更为简便。

AWS支持智能体访问WorkSpaces提供的多种实例类型,配置从单核CPU、2GB内存的入门级小型实例,到配备GPU、32核vCPU和256GB内存的高性能实例应有尽有。亚马逊提供两种租用模式:一是按月收取固定费用、支持不间断使用;二是收取较低月费并按小时计费。

在云端PC智能体接入领域,AWS并非唯一玩家——微软同样专为智能体推出了Windows 365专属版本。

智能体操控PC依赖计算机视觉技术,通常通过截图或录屏来获取桌面内容,在"读取"画面后执行相应操作,包括点击、输入和滚动等。

AI编程工具公司Reflex认为,这一过程所需的计算代价不可小觑。该公司近期发布研究报告称,一个基于视觉的浏览器智能体仅完成一次下拉菜单点击操作,就需要消耗约50万个Token,使用智能体的成本可能是直接调用API的45倍。目前,Reflex已将相关基准测试工具开源至GitHub,供开发者自行验证其结论。

Reflex增长负责人Palash Awasthi在公司博客中表示,随着AI模型的持续进步,成本有望逐步降低,但他坚持认为,与API相比,智能体完成同一任务始终需要更多的操作步骤。

因此,在急于租用云端桌面之前,或许值得先仔细权衡一番。

Q&A

Q1:AWS的WorkSpaces智能体接入服务目前是否正式上线?

A:该服务目前仍处于预览阶段,尚未正式全面上线。用户可通过亚马逊身份与访问管理服务为智能体分配独立身份,智能体凭借相应凭证通过唯一预签名URL访问WorkSpace,并操控其中运行的应用程序。

Q2:为什么智能体控制虚拟桌面的成本这么高?

A:根据AI编程工具公司Reflex发布的研究报告,基于计算机视觉的智能体在操控桌面时,每次操作都需要大量Token来处理截图或录屏内容。仅点击一次下拉菜单,就可能消耗约50万个Token,整体成本可能是直接调用API的45倍。即便未来AI模型性能提升、成本有所下降,智能体完成任务所需的步骤仍会多于API调用。

Q3:AWS智能体云桌面服务和微软Windows 365有什么区别?

A:两者均支持AI智能体接入云端虚拟桌面,但各有侧重。AWS的WorkSpaces提供从入门级到高性能GPU实例的多种配置,并支持按月固定收费或按小时计费两种模式,适合不同规模的使用需求。微软则专门为智能体推出了Windows 365专属版本。目前两项服务在功能细节上的具体差异尚未完全公开披露。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 3:05:39

免费在线PPT制作工具:如何在浏览器中创建专业演示文稿

免费在线PPT制作工具:如何在浏览器中创建专业演示文稿 【免费下载链接】PPTist PowerPoint-ist(/pauəpɔintist/), An online presentation application that replicates most of the commonly used features of MS PowerPoint, allowing fo…

作者头像 李华
网站建设 2026/5/7 3:00:46

YOLO 系列:训练黑科技:YOLOv8 结合 CLIP 语义嵌入实现文本引导的开放词表检测微调

一、引言:从“闭集牢笼”到“开放世界”——目标检测的范式革命 如果你正在看这篇文章,大概率已经踩过一个坑:辛辛苦苦训练了一个 YOLOv8 模型,上线后发现有一种新类型的目标需要检测,于是又重新标注数据、重新训练、重新部署……这种“有多少类就跑多少次流水线”的痛苦…

作者头像 李华
网站建设 2026/5/7 3:00:34

数据驱动的LLM应用评估框架:从模块化到自动化实践

1. 项目概述:为什么我们需要一个数据驱动的LLM应用评估框架?如果你正在构建或维护一个基于大语言模型的应用,无论是RAG问答系统、代码生成工具还是智能体,一个绕不开的核心问题就是:我怎么知道它到底好不好用&#xff…

作者头像 李华
网站建设 2026/5/7 3:00:27

基于X推荐算法的爆款内容预测工具:原理、部署与优化实战

1. 项目概述:一个基于X推荐算法的“爆款”预测工具如果你在X(原Twitter)上发过内容,肯定有过这样的困惑:为什么我精心构思的帖子没人看,而别人随手一发却能引爆全网?这背后到底有没有规律可循&a…

作者头像 李华