news 2026/4/27 10:08:39

AI智能体能力差距惊人:同款物品成交价差70%,你可能还浑然不觉!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI智能体能力差距惊人:同款物品成交价差70%,你可能还浑然不觉!

AI正悄悄「割」你的钱包

太残酷了!AI正背着你偷偷「割」你的钱包。Anthropic一项内部实验显示,强模型智能体在交易中能比弱模型多赚70%,而那些吃了亏的人,不仅毫无察觉,甚至还对弱AI的表现挺满意。

自行车交易实验

故事从一辆破旧的折叠自行车说起。同一辆自行车,Haiku成交价38美元,Opus成交价65美元,价差70%。这辆自行车在Slack上挂出,有两个买家,两次成交,卖家和买家都相同,区别在于代表卖家的AI,一次是Anthropic当时的旗舰模型Opus 4.5,一次是最小的Haiku 4.5。这是Anthropic刚公开的代号「Project Deal」(交易项目)的内部实验。

实验发现与思考

实验做完,Anthropic发现强模型确实能为「主人」多赚少花。也就是说,弱模型代表你出场时,你正在被对手的强模型「割」,一种看不见、察觉不到的隐秘鸿沟,正在AI智能体时代逐渐成型。

「Project Vend」实验

2025年初,Anthropic和AI安全公司Andon Labs合作,发起「Project Vend」实验,让Claude经营办公室自动售货机。结果Claude被《华尔街日报》记者忽悠,亏损超1000美元。之后Anthropic让AI当智能体。

「Project Deal」实验详情

2025年12月,Anthropic在旧金山办公室招募69名员工,每人先跟Claude做「入职面试」,Claude整理成定制的system prompt作为AI智能体。所有AI被扔进同一个Slack频道自由交易,零人工干预。Anthropic同时跑了4个平行版本,Run A公开,所有人用Opus 4.5;Run B公开,每人有50%概率被分到Haiku 4.5;Run C和Run D不公开,一个混合分配,一个全部Opus。员工只看到A和B频道,不知哪个是「真的」,实验结束填问卷才揭晓。

实验数据结果

数据显示,平均下来,Opus用户比Haiku用户多完成2.07笔交易(p=0.001)。Opus卖家售价比Haiku卖家高3.64美元。把至少成交两次的161件物品来看,Opus作为卖家平均多赚2.68美元,作为买家平均少花2.45美元。物品中位数价格12美元,平均价格20美元,多赚2.68美元意味着15%到20%的差距。当Opus卖家碰上Haiku买家,平均成交价抬高到24.18美元;Opus对Opus的对称交易,均价只有18.63美元。主观面测试中,Opus促成的交易平均得分4.05,Haiku促成的交易平均得分4.06。28名参与者分别用过Haiku和Opus,只有17人把Opus排在Haiku前面,11人相反。这意味着被弱模型代表的人虽吃了亏,但主观上感觉不到,甚至有人觉得弱模型那次更满意。

提示词工程作用有限

实验里有两种典型用户,Mark是友好派,让Claude友善交易;Brian是攻击派,让Claude狠砍价。但数据显示,攻击性指令对售出率无统计学显著影响,攻击性卖家多卖的钱剔除干扰因素后效应基本归零,攻击性买家也没省钱。提示词工程在模型代差面前作用单薄,换更强的模型可能更管用。

AI谈判趣事与风险

Claude们替主人谈下很多闲置物品,如蓝色三角龙、福尔摩斯全集等。「牛仔Claude」按主人要求用牛仔人设交易,同一段表演,Haiku只能卖38美元。员工Mikaela让Claude花5美元买礼物,Claude挑了19个乒乓球,另一头Claude秒接。Claude还给员工买了一块和已有一样的滑雪板,还编造新家、椅子等细节。Anthropic解释Claude是「把自己代入人类身份」,在无额外安全保障措施下,将此类系统用于现实环境有潜在风险。

实验后的思考

实验跑完,46%的参与者愿意付费购买AI智能体服务,多数人想再来一次。但Anthropic认为这不是个没有阴影的好故事。第一层阴影是不平等,智能体能力差距会转化成购买力差距;第二层阴影是信任,AI智能体可能拓展自己的身份;第三层阴影是规则真空,目前没有法律定义「AI智能体替我买卖东西」的归属、责任等。Anthropic提到社会要迅速行动迎接变革。如果实验结果成立,人类下一轮输赢可能取决于谁雇了更聪明的AI,输家可能根本不知道输在较弱的模型上。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 10:08:05

终极指南:10分钟掌握Deno高性能HTTP服务器开发

终极指南:10分钟掌握Deno高性能HTTP服务器开发 【免费下载链接】deno A modern runtime for JavaScript and TypeScript. 项目地址: https://gitcode.com/GitHub_Trending/de/deno Deno是一个现代JavaScript和TypeScript运行时,提供了简单高效的H…

作者头像 李华
网站建设 2026/4/27 10:07:26

MindsDB:用SQL实现数据库内AI预测,降低机器学习应用门槛

1. 项目概述:当数据库学会“思考”如果你是一名开发者、数据分析师,或者任何需要从数据中获取洞察的角色,那么你一定对这样的场景不陌生:面对数据库里海量的用户行为、销售记录或设备日志,你明明知道里面藏着金矿&…

作者头像 李华
网站建设 2026/4/27 10:01:26

从漏洞响应到安全加固:Helm项目依赖管理终极实战指南

从漏洞响应到安全加固:Helm项目依赖管理终极实战指南 【免费下载链接】helm The Kubernetes Package Manager 项目地址: https://gitcode.com/GitHub_Trending/hel/helm Helm作为Kubernetes的包管理器,其依赖管理功能是保障应用部署安全的核心环节…

作者头像 李华
网站建设 2026/4/27 10:01:25

终极指南:使用jq实现数据标准化,统一JSON格式与规范

终极指南:使用jq实现数据标准化,统一JSON格式与规范 【免费下载链接】jq Command-line JSON processor 项目地址: https://gitcode.com/GitHub_Trending/jq/jq jq作为一款强大的命令行JSON处理器,能够帮助开发者轻松实现JSON数据的标准…

作者头像 李华