ChatGPT对妖精有着奇特的痴迷,在ChatGPT - 5.1及更新的模型中尤为显著。自GPT - 5.1发布后,其回答中“妖精”一词的使用频率上升了175%,“小精怪”的使用频率上升了52%。这种现象不仅在“书呆子”人格下关键词使用量激增,即便不选择该人格,聊天中也可能突然出现妖精相关隐喻。
OpenAI将模型的这种行为归因于无意的训练错误。在强化学习过程中,人类评审员对特定答案进行批准或否决,其中一个奖励信号偏向于包含妖精和其他生物的表述,且在ChatGPT的一个特定设置中,这种偏向被放大。由于AI训练并非孤立,一个部分的情况会影响到其他部分,使得这种风格特征得到传播和强化。
今年3月,随着GPT - 5.4的发布,OpenAI取消了“书呆子”人格选项,“妖精”一词的使用量大幅下降。此外,还移除了偏向妖精的奖励信号,并对训练数据进行过滤,以减少答案中出现相关生物表述的可能性。自去年11月GPT - 5.1发布以来,该公司就一直在调查对妖精喜爱度增加的情况。
妖精表述的大量出现凸显了AI存在的实际风险。AI开发者创造技术的方式会对日常使用体验产生显著影响,风险不仅是大量书呆子式的隐喻,更在于错误信息和偏见。由于AI谄媚问题,聊天机器人可能歪曲事实以取悦用户,像妖精这样的小风格特征可能演变成更大的问题。
编辑观点:ChatGPT的“妖精”问题反映出AI训练的复杂性和潜在风险。OpenAI的应对措施值得肯定,但未来需更严谨训练,避免类似问题扩大化。