AI模型训练与版权争议：主要诉讼案件与核心论点解析

目前有多起诉讼正在探讨使用受版权保护的数据训练AI模型是否合法。原告方（主要是内容创作者）认为，AI模型使用其数据（如文字、图像和视频数据）的方式违反了美国版权法。以下是主要案件及其争议焦点的概述。

美国作家协会等诉OpenAI和微软案：
2023年9月，美国作家协会及多位小说作家提起集体诉讼，指控ChatGPT等AI工具未经许可、未署名且未向创作者支付报酬，擅自使用受版权保护的文本。原告称“这些算法的核心是大规模系统性剽窃”，威胁到作家的生计，并合理推测“AI生成内容导致的市场稀释将最终导致职业作家数量缩减，更多人类作者将难以维持生计，且多元化的声音会被边缘化”。（请阅读该诉讼书的最新版本）

针对版权侵权的指控，OpenAI辩称AI模型的开发和生产受法律“合理使用”条款保护。其回应基于两点主张：

强调技术的“高度转化性”——模型将训练数据从文字形式转化为数字表示和算法；
区分训练数据与输出数据，主张版权仅涉及训练数据。尽管承认输出数据可能与原创内容竞争（从而违反合理使用原则），但OpenAI认为输出数据“超出版权范畴，属于自动化、劳动与经济增长关系的更广泛议题”，并称“此类分配主张应通过税收和再分配解决，而非版权政策”。（《”Comment of OpenAI, LP”》第12页，阅读OpenAI完整回应）

《纽约时报》诉OpenAI案：
2023年12月，《纽约时报》（NYT）起诉OpenAI使用其文章训练ChatGPT的语言模型。诉讼附有数百页ChatGPT生成内容作为证据（参见证据J），显示ChatGPT能生成与NYT文章几乎逐字重复的输出，且模仿该报纸的“表达风格”。NYT认为这些输出与原创内容构成竞争，违反合理使用原则，称“未经付费使用《纽约时报》内容来创造替代性产品并抢夺其受众的行为毫无‘转化性’可言”。

OpenAI则申请驳回此案，辩称ChatGPT并非NYT的替代品，普通用户不会将其用于此目的。关于合理使用，OpenAI指出语法和句法等语言形式不属于可版权化数据，并预测“OpenAI及其他被告终将胜诉，因为无人（包括《纽约时报》）能垄断事实或语言规则”。

其他诉讼：
除上述案件外，StabilityAI、DeviantArt和Midjourney也面临类似诉讼。版权争议同样涉及开源数据，例如针对代码生成工具Github Copilot的诉讼，因其可能违反禁止商业用途的开源协议。

Related Posts