人工智能

对于纽约时报对开放人工智能（OpenAI）和微软的诉讼，我个人的观点是

纽约时报的诉讼案如何阐明了版权保护和人工智能进步之间的微妙平衡，并为人工智能爱好者提供了充足的思考素材。

《纽约时报》（以下简称“NYTimes”或“原告”）起诉OpenAI（代表ChatGPT）和微软（代表必应搜索结果），合称为“被告”，指控其未经许可或付款使用了该报百万篇文章。本博文基于我对案件细节的理解，细节可在此处找到，似乎是纽约时报在法庭上提交的正式起诉文件。

全面透露：我向ChatGPT寻求帮助以理解案例并纠正语法错误。然而，所有的思考和写作都是我自己完成的。

案件背景

纽约时报声称被告在未经许可或付款的情况下使用其内容来训练AI模型，构成了对其内容的未经授权使用和复制。诉状引用了几个实例，其中ChatGPT从纽约时报文章中逐字复制了段落。令人印象深刻的是，纽约时报在其诉状中详细描述了ChatGPT如何创建了一个由数百万个网页组成的数据集，名为WebText，其中包括大量来自纽约时报的文章，据称违反了版权法。

然而，在深入探讨纽约时报所引述的具体违规行为之前，了解用于训练ChatGPT的数据集（尤其是WebText数据集）的创建方式将是有益的。事实上，在阅读投诉之前，我对于创建这些数据集所涉及的过程一无所知。通过阅读完整的投诉和所引述的参考资料，我对ChatGPT训练的早期阶段有了更为丰富的了解。

WebText数据集

WebText是OpenAI为训练其GPT-2模型而创建的一个内部语料库。本文讨论了WebText数据集的创建以及GPT-2的训练。该数据集是通过从Reddit链接的网页中抓取至少获得3个karma的页面来编制的。数据集的创建者将链接上的点赞视为Reddit用户对链接信息质量和有用性的认可。重点是使用由人类策划或筛选的内容。经过去重和清理后，该数据集包括超过800万个文档，总共约40GB的文本。

此外，在训练过程中，GPT-2在数据集中重复出现多次的较长字符串上展现了一些记忆行为，例如著名的引语或演讲。例如，当以葛底斯堡演讲的开头作为条件时，GPT-2能够恢复出该演讲，表明它能够在特定条件下复制来自WebText的内容。

发生了什么：《纽约时报》的指控

根据投诉，这个数据集旨在强调文档质量，其中包含了大量从《纽约时报》网站抓取的内容。在WebText数据集中，《纽约时报》的域名是前15个最常出现的域名之一，被列为第5个顶级域名，共有333,160个条目。此外，在GPT-3的训练中还使用了最新的数据集OpenWebText2。该数据集包含了209,707个唯一的《纽约时报》网址，占据了数据集中所有来源的1.23%。

纽约时报声称，这种利用其内容的做法违反了版权法的多个方面。为了清晰起见，我将这些所谓的违规行为归类为三个不同的类别。