人工智能
对于纽约时报对开放人工智能(OpenAI)和微软的诉讼,我个人的观点是
纽约时报的诉讼案如何阐明了版权保护和人工智能进步之间的微妙平衡,并为人工智能爱好者提供了充足的思考素材。
数据无处不在,通常可以免费获取,并对访问做出最小限制。我们如何在不受数据使用约束的同时,尊重数据的版权所有权来训练AI模型?最近的诉讼案为我们提供了足够的思考材料。
《纽约时报》(以下简称“NYTimes”或“原告”)起诉OpenAI(代表ChatGPT)和微软(代表必应搜索结果),合称为“被告”,指控其未经许可或付款使用了该报百万篇文章。本博文基于我对案件细节的理解,细节可在此处找到,似乎是纽约时报在法庭上提交的正式起诉文件。
全面透露:我向ChatGPT寻求帮助以理解案例并纠正语法错误。然而,所有的思考和写作都是我自己完成的。
案件背景
纽约时报声称被告在未经许可或付款的情况下使用其内容来训练AI模型,构成了对其内容的未经授权使用和复制。诉状引用了几个实例,其中ChatGPT从纽约时报文章中逐字复制了段落。令人印象深刻的是,纽约时报在其诉状中详细描述了ChatGPT如何创建了一个由数百万个网页组成的数据集,名为WebText,其中包括大量来自纽约时报的文章,据称违反了版权法。
然而,在深入探讨纽约时报所引述的具体违规行为之前,了解用于训练ChatGPT的数据集(尤其是WebText数据集)的创建方式将是有益的。事实上,在阅读投诉之前,我对于创建这些数据集所涉及的过程一无所知。通过阅读完整的投诉和所引述的参考资料,我对ChatGPT训练的早期阶段有了更为丰富的了解。
WebText数据集
WebText是OpenAI为训练其GPT-2模型而创建的一个内部语料库。本文讨论了WebText数据集的创建以及GPT-2的训练。该数据集是通过从Reddit链接的网页中抓取至少获得3个karma的页面来编制的。数据集的创建者将链接上的点赞视为Reddit用户对链接信息质量和有用性的认可。重点是使用由人类策划或筛选的内容。经过去重和清理后,该数据集包括超过800万个文档,总共约40GB的文本。
此外,在训练过程中,GPT-2在数据集中重复出现多次的较长字符串上展现了一些记忆行为,例如著名的引语或演讲。例如,当以葛底斯堡演讲的开头作为条件时,GPT-2能够恢复出该演讲,表明它能够在特定条件下复制来自WebText的内容。
发生了什么:《纽约时报》的指控
根据投诉,这个数据集旨在强调文档质量,其中包含了大量从《纽约时报》网站抓取的内容。在WebText数据集中,《纽约时报》的域名是前15个最常出现的域名之一,被列为第5个顶级域名,共有333,160个条目。此外,在GPT-3的训练中还使用了最新的数据集OpenWebText2。该数据集包含了209,707个唯一的《纽约时报》网址,占据了数据集中所有来源的1.23%。
纽约时报声称,这种利用其内容的做法违反了版权法的多个方面。为了清晰起见,我将这些所谓的违规行为归类为三个不同的类别。
- 第一类涉及未经授权使用纽约时报的内容来训练GPT模型。
- 第二类涉及未经授权的纽约时报内容的复制、展示和分发,无论是逐字复制还是几乎完全相同的摘要。
- 第三种情况集中于错误地归属于《纽约时报》的内容的挪用,或者可以称之为AI“错觉”。这包括生成有可能损害该出版物声誉的随机或假设内容。
纽约时报的影响和需求
《纽约时报》声称:“尽管被告从许多来源广泛复制,但在构建大型语言模型(LLM)时,他们对[纽约时报]的内容给予特别强调-这显示了对这些作品价值的认可。”
然而,使用WebText数据集使被告能够创建与《纽约时报》内容相竞争的人工智能产品,可能削弱《纽约时报》的新闻努力以及与读者的关系。此外,幻觉可能会损害《纽约时报》的声誉并降低人们对其的信任。
投诉中未明确或量化此类侵犯版权行为的经济影响。尽管如此,纽约时报要求陪审团审判,并要求适当的赔偿以及删除所有使用纽约时报内容的GPT模型和训练数据集。
我的视角和更大的画面
我认为同意指控的第二和第三类别是相当合理的。几乎完全复制或者创建改写的版权内容,尤其是有付费壁垒的内容,可能会造成经济损失。这是典型的剽窃行为。此外,错误地将某物归属于《纽约时报》,无论是好是坏,都类似于误导,并且可能损害声誉,导致经济损失。
然而,对于第一类指控的某些方面以及第二类指控中的一些主张,我的立场不太明确。
一个担忧是使用版权内容来训练AI模型。个人和政府如何防止或取缔使用互联网上可用的信息来训练AI模型?我相信,尽管我们付出了很多努力,但完全限制例如网络爬虫收集数字内容几乎是不可能的。即使采取了像CAPTCHA这样的措施,先进的基于AI的爬虫也有可能绕过它们。
如何防止个人和政府禁止或取缔互联网上可用于训练AI模型的信息使用?
此外,什么情况下使用受版权保护的内容可以被视为公平使用?根据《彭博法律》的一篇文章,人们普遍认为,如果OpenAI在ChatGPT的训练过程中复制了受版权保护的文本,这样的复制并非出于商业用途,也没有经济上损害版权所有者。文章中引述了版权法教授丹尼尔·热尔韦斯的话:“在以版权数据作为训练基础的系统中,很有可能属于公平使用。”
第二个问题是,使用有版权的内容来训练AI模型是否属于公平使用的规定范围内?考虑到这对内容所有者渐进产生不经济影响的情况。但是,那么生成AI模型的输出会有经济影响吗?
生成式人工智能从现有内容中创造出新的东西。因此,其产出物属于衍生作品,并可能受版权法保护。法庭需要面对的一个真正挑战是决定是否(以及何时)将生成式人工智能内容视为衍生作品或变革作品。
法院需要决定的一个真正挑战是,是否(以及何时)应将生成式人工智能内容视为派生作品还是变革作品。
我无法回答这两个问题。我期待这起诉讼的进展,它可以帮助突显围绕AI的更大问题和社会议题在公开讨论中。
敬请关注,后续将有更多更新!