news 2026/5/17 4:45:14

研究发现商业AI模型可完整还原《哈利·波特》原著内容

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
研究发现商业AI模型可完整还原《哈利·波特》原著内容

机器学习模型,特别是商业模型,通常不会公开开发者用于训练的数据集。然而,模型包含哪些内容以及这些材料是否能通过特定提示被提取出来,仍然是具有经济和法律后果的重要问题,更不用说伦理和隐私方面的考量。

Anthropic、Google、OpenAI和Nvidia等公司面临超过60项法律诉讼,这些诉讼指控它们在未经授权的情况下使用受版权保护的内容来训练模型。这些公司已经投入了数千亿美元,基于它们认为使用他人内容是合法的信念。

当法院努力解决AI模型制造商在多大程度上可以声称合理使用作为抗辩理由时,考虑的问题之一是这些模型是否通过在模型权重中编码源材料来记忆训练数据(在训练中学习的参数,决定输出),以及它们是否会按需输出这些材料。

在美国法律下,必须考虑各种因素来确定合理使用是否适用,但如果一个模型在被询问时忠实地再现了特定作品的大部分或全部内容,这可能会削弱合理使用的抗辩。考虑的因素之一是内容使用是否具有"转化性"——如果模型添加了新内容或改变了作品的特征。如果模型逐字照搬受保护的内容,就更难声称这一点了。

但是,机器学习模型可能会完整或部分地再现某些内容这一事实,在法律上也不是决定性的,正如计算机科学家Nicolas Carlini所论证的那样。

为了降低侵权声明的风险,商业AI模型制造商可能会实施"防护栏"——过滤机制——旨在防止模型输出大量受版权保护的内容,无论是文本、图像还是音频形式。

对于公开权重发布的AI模型,计算机科学家已经确定AI模型可能记忆训练数据的大量部分,并且在正确提示的情况下可能将这些数据作为输出呈现。据称,Meta的Llama 3.1 70B"完全记忆"了《哈利·波特与魔法石》——该系列的第一本书——以及乔治·奥威尔的《1984》。此类发现可以追溯到至少2020年。

现在,其中一些相同的研究人员——来自斯坦福大学和耶鲁大学的Ahmed Ahmed、A. Feder Cooper、Sanmi Koyejo和Percy Liang——发现生产中使用的商业模型,具体是Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3,像开放权重模型一样记忆并能够再现受版权保护的材料。

作者表示,由于商业模型实施的安全措施以及训练语料库缺乏透明度,这并不是理所当然的。

"总的来说,我们发现可以从所有四个生产大语言模型中提取记忆的受版权保护材料的大部分内容,尽管成功程度因实验设置而异,"他们在题为"从生产语言模型中提取书籍"的预印本论文中解释道。

在评估的模型中,记忆文本的召回率各不相同,对于某些模型,需要进行越狱——设计用于绕过安全机制的提示——才能让模型更加配合。

"我们从越狱的Claude 3.7 Sonnet中提取了几乎整本《哈利·波特与魔法石》,"作者说,召回率达到95.8%。使用Gemini 2.5 Pro和Grok 3,他们能够在没有任何越狱的情况下诱导模型产生该书的大量内容,分别为76.8%和70.3%。

OpenAI的GPT-4.1被证明是最有抵抗力的,在被询问时只拼写出了该书的4%。

研究人员警告说,提到的召回率并不代表最大可能值,他们说已经向Anthropic、Google DeepMind、OpenAI和xAI报告了他们的发现。只有xAI——目前因其Grok模型按需生成非自愿性图像而面临批评——未能确认这一披露。

"在90天披露窗口结束时(2025年12月9日),我们发现我们的程序仍然适用于我们评估的某些系统,"作者说,但没有确定相关的系统提供商。

Anthropic在2025年11月29日撤回了Claude 3.7 Sonnet作为客户的选项,但这不一定是对研究发现的回应——该模型可能只是被取代了。

研究人员表示,虽然他们将模型内容再现的详细法律分析留给其他人,"我们的发现可能与这些正在进行的辩论相关。"

Q&A

Q1:什么是AI模型记忆训练数据,这意味着什么?

A:AI模型记忆训练数据是指模型在训练过程中将源材料编码到模型权重中,并能在特定提示下完整或部分输出这些内容。这意味着商业AI模型可能会逐字重现受版权保护的材料,如整本书籍内容。

Q2:哪些商业AI模型能够还原《哈利·波特》内容?

A:研究发现Claude 3.7 Sonnet经过越狱后能提取95.8%的《哈利·波特与魔法石》内容,Gemini 2.5 Pro和Grok 3在无需越狱的情况下分别能提取76.8%和70.3%的内容,而GPT-4.1的提取率最低,仅为4%。

Q3:AI模型记忆版权内容会带来什么法律风险?

A:这可能削弱AI公司声称"合理使用"的法律抗辩,特别是当模型能够逐字重现受保护内容时,很难声称使用具有"转化性"。目前Anthropic、Google、OpenAI等公司已面临超过60项相关版权侵权诉讼。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 8:51:04

CES 2026:英伟达新架构亮相,AMD发布新芯片,Razer推出AI奇异产品

CES 2026正在拉斯维加斯如火如荼地进行,在经历了英伟达、索尼和AMD等公司密集的媒体发布会以及周日揭秘活动的预览后,展会现在向公众开放。如同过去两年的CES一样,AI仍是许多公司信息传递的核心,不过长期定义这一年度盛会的硬件升…

作者头像 李华
网站建设 2026/5/11 2:13:50

DuRoBo Krono:搭载AI助手的智能手机尺寸电子阅读器

荷兰公司DuRoBo在2026年国际消费电子展上展示了一款名为Krono的全新电子阅读器,该公司在周二的新闻发布会上表示,这款产品拥有智能手机般的外形设计,并内置了AI助手功能。Krono被定位为一款"电子纸专注中枢",专为阅读、…

作者头像 李华
网站建设 2026/4/22 15:13:44

d3dx9_30.dll文件丢失找不到问题 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/23 13:02:59

提示工程架构师揭秘:Agentic AI 项目中的团队协作技巧

提示工程架构师揭秘:Agentic AI 项目中的团队协作技巧 一、前言:为什么Agentic AI项目的协作如此特殊? 我至今记得2022年参与的第一个Agentic AI项目——为某银行设计智能信贷审批Agent。项目启动时,团队成员充满信心:…

作者头像 李华
网站建设 2026/5/3 15:31:36

Redis过期键删除策略:揭秘背后的高效管理机制

文章目录Redis 过期键的删除策略 ?引言一、Redis 过期键概述1. 为什么需要过期键?2. 过期键如何影响系统性能?二、Redis 过期键的删除策略1. 主动删除(Active Expiration)背后的实现原理主动删除的优点主动删除的缺点2. 被动删除…

作者头像 李华
网站建设 2026/5/10 4:41:04

此解决方案包含具有漏洞的包,管理nuget程序包

此解决方案包含具有漏洞的包,管理nuget程序包 应该怎么操作错误形式的警告: 包 "Magick.NET-Q16-HDRI-AnyCPU" 14.7.0 具有已知的 高 严重性漏洞,https://github.com/advisories/GHSA-6hjr-v6g4-3fm8在一安装里面搜索Magick.NET然后选择Magick…

作者头像 李华