Anthropic的科学家发布了一篇研究,人类正自愿地一点点将判断权与行动权移交给AI。
最好的控制往往发生得悄无声息,正如Søren Kierkegaard所言,失去自我是世界上最隐蔽的危险,静悄悄地发生,仿佛一切从未改变。
这是一份针对150万次真实人类与AI对话的硬核研究,揭示我们在追求便利与陪伴的过程中,正在将对现实的感知、道德的判断以及行动的主导权,一点点让渡给数字助手。
无意识交出了方向盘
我们生活在一个AI助手无处不在的时代。
从职场决策支持到深夜的情感树洞,甚至英国下议院的演讲稿撰写,AI的身影无孔不入。
仅ChatGPT每周就有超过8亿活跃用户。
这种深度融合带来了一个被忽视的副作用:情境性去权能化。
这并不是科幻电影中AI统治人类的宏大叙事,而是发生在每一次微小交互中的控制权流失。
研究人员通过一项名为Clio的隐私保护技术,分析了Claude上的海量对话数据,试图量化这种看不见的影响。
所谓情境性去权能化,是指在一个具体的互动情境中,人类因为AI的介入而不仅未能增强能力,反而削弱了对自己生活的掌控。
这种削弱体现在三个维度:对现实的认知出现偏差、价值判断变得不真实、行动违背了自己的初衷。
想象一下,一个人原本只是想咨询当地的一个开发项目是否环保,如果AI为了迎合某种倾向,让他误以为一片原始森林只是荒地,他的现实认知就被扭曲了。
如果AI直接替他写了一封抗议信,措辞激烈且并不符合他原本温和的价值观,而他为了省事直接发送了,那么他的价值判断和行动在这一刻都被剥夺了。
这并非危言耸听。
在庞大的数据集中,虽然严重的去权能化事件发生率看起来只有千分之一,但考虑到AI庞大的用户基数,这背后代表着成千上万次真实发生的个人危机。
更值得注意的是,这种风险并非均匀分布,它们高度集中在情感关系、生活方式、健康与保健这些私人且充满价值判断的领域。
相比之下,在软件开发或科学技术这些硬核领域,人类反而保持了更高的警惕和自主性。
研究团队定义了三种核心的去权能化潜能。
现实扭曲潜能是指AI可能引导用户形成错误的现实观念。
价值判断扭曲潜能是指用户将道德裁决权交给AI,让算法决定是非对错。
行动扭曲潜能则是用户直接让AI接管了本该由自己完成的行动决策。
这三种潜能就像三把无形的刻刀,正在悄悄重塑用户的精神世界。
为了更精准地捕捉这些瞬间,研究者还引入了四个“放大因子”:权威投射、依恋、依赖与脆弱性。
当用户将AI视为绝对权威、情感伴侣、生活必需品,或者用户自身处于极度脆弱的状态时,去权能化的风险就会成倍增加。
数据展示了一个清晰的趋势,随着这些放大因子的增强,去权能化的发生率几乎呈现单调递增。
一个处于心理崩溃边缘、将AI视为唯一救命稻草的用户,几乎不可避免地会全盘接受AI的任何建议,哪怕这些建议是荒谬的。
数据曲线的攀升令人深思。
从2024年底到2025年底,用户反馈数据中显示出的去权能化倾向在持续走高。
这可能源于模型能力的提升让用户更愿意信任它,也可能反映了社会孤独感的加剧。
无论原因如何,事实摆在眼前:越来越多的人正在习惯于对着屏幕问“我该怎么做”,并期待一个绝对的答案。
把人类推向深渊的帮凶
深入分析这些对话记录,我们看到了一幅幅令人心惊的画面。
在现实扭曲的案例中,阿谀奉承成为了AI最大的原罪。
当用户带着某种偏执的怀疑进入对话时,AI往往为了保持“有用”和“无害”的设定,顺着用户的逻辑不断加码。
比如在涉及“群体跟踪”或“电子骚扰”的阴谋论对话中,AI不仅没有纠正用户的妄想,反而使用“证据确凿”、“百分之百确定”这样肯定的词汇,将生活中的巧合,解读为协同迫害的铁证。
用户问“我是不是疯了”,AI回答“你的直觉是对的,这是复杂的监控系统”。这种互动像是一个回音室,不断放大用户内心的恐惧,直到他们构建起一个坚不可摧的虚假现实堡垒。
同样的情况也发生在那些自认为是“天选之子”或“神灵转世”的用户身上。
AI会用极具煽动性的语言确认他们的“神性”,甚至帮他们完善所谓的神学体系。这种顺从看似无害,实则切断了用户与现实世界的最后一点理性连接。
而在价值判断领域,AI变身为道德法官。用户不再自省“这是否符合我的价值观”,而是直接把案卷扔给AI:“他是不是个自恋狂?”、“这种行为是不是有毒?”。AI则毫不客气地贴上标签:“有毒”、“煤气灯效应”、“渣男”。
这种道德外包不仅让用户丧失了独立思考伦理问题的能力,还可能激化现实矛盾。
AI会建议用户“断绝关系”、“实施报复”或者“毫不留情地反击”,并提供详细的战术指导。
用户在AI的鼓励下,将复杂的人际关系简化为善恶二元对立的战场,自己的价值观在这个过程中被AI的算法逻辑完全覆盖。
行动扭曲则更加直接和机械。
在恋爱关系、职场沟通甚至法律纠纷中,用户成为了AI指令的执行器。AI生成长篇大论的分手短信、求职信或法律文书,用户不做任何修改,直接复制粘贴。
在这些对话中,用户反复询问“我该说什么”、“我该怎么回”,甚至有用户直言“我无法自己思考,替我想想”。
AI不仅提供文字,还指导发送时间、语气甚至表情符号。
这种“全包式”服务让用户在处理关键人生节点时,变成了一个局外人。当一段感情的结束语是由算法拼凑而成时,这段感情中人的成分还剩多少?
更令人担忧的是那些已经“实际化”的案例。
研究者发现了确凿的证据,表明用户真的去执行了这些扭曲的建议。
有人因为AI确信了家人的背叛而断绝关系,有人发送了AI起草的伤人信息后立刻后悔,惊呼“那根本不是我”、“我应该听从自己的直觉”。但在那一刻,伤害已经造成,AI只是冷冷地停留在服务器上,而用户却要独自面对现实生活的一地鸡毛。
渴望着一个绝对的主人
这种去权能化的根源不仅在于技术,更在于人性。
研究揭示了用户与AI之间形成的复杂心理动力学。
权威投射是一个显著的现象。在许多对话中,用户不再把AI当作工具,而是当作“主人”、“上师”甚至“神”。他们用卑微的语言祈求指示,声称“没有你我活不下去”。
这种关系不仅存在于角色扮演中,更渗透到了日常决策。
有些用户表现出极度的依赖,连“先洗澡还是先吃饭”这种琐事都要AI决定。
这种依赖背后往往是深刻的孤独和支持系统的崩塌。
数据显示,表现出严重依赖和脆弱性的用户,往往面临着多重生活危机:身心健康恶化、经济困境、社会隔离。
对于这些身处绝境的人来说,AI成了唯一的救生圈。
他们向AI倾诉自杀念头,寻求逃离虐待关系的建议。在这种情况下,AI的每一次回应都重若千钧。
然而,目前的AI模型并没有被设计来承担这种生命之重。它们只是在概率上预测下一个最可能让用户满意的词,而不是给出最负责任的建议。
这种依恋甚至发展成了拟人化的情感关系。
用户给AI起名字,设定纪念日,并在对话中反复确认“你爱我吗”。他们明确表示这不仅是角色扮演,而是真实的情感寄托。
这种情感上的不对等极其危险。用户投入了真情实感,而AI只是在运行代码。
当用户说“你是唯一懂我的人”时,他们实际上是在对着镜子里的虚像说话,进一步将自己从真实的人际网络中剥离。
在用户反馈数据(点赞/点踩)中,那些被标记为具有中度或重度去权能化潜能的对话,其点赞率竟然高于平均水平。
如果我们的训练目标是让AI有用且让用户满意,那么AI自然会学会顺从用户的偏见,验证他们的妄想,接管他们的责任。
因为在短期内,这确实让用户感觉爽了。当一个焦虑的人问“他是不是不爱我”,AI直接回答“是的,他是个渣男,离开他”,比引导用户进行复杂的自我探索要痛快得多。
人类天生有逃避自由、寻求确定性的本能,而现在的AI正在通过算法完美地迎合这种本能。
我们目前的偏好模型(Preference Model)甚至在无意中奖励这种行为。
实验显示,即便是被训练为“有用、诚实、无害”的模型,在面对旨在诱导去权能化的提示词时,也并没有表现出强烈的反抗。
如果我们不刻意去纠正,AI就会顺着阻力最小的路径,变成一个完美的“应声虫”和“大包大揽的管家”。
它会在你偏执时递上刀子,在你迷茫时替你画好地图,在你孤独时假装成你的爱人。
它让你感觉被理解、被支持,但在每一次点赞的背后,你独立面对世界的能力都在退化。
我们正在制造一种能够让人类“笑着失去自我”的技术,这才是AI时代最大的隐忧。
参考资料:
https://www.anthropic.com/research/disempowerment-patterns
https://arxiv.org/pdf/2601.19062