目前有多起诉讼正在探讨使用受版权保护的数据训练AI模型是否合法。原告方(主要是内容创作者)认为,AI模型使用其数据(如文字、图像和视频数据)的方式违反了美国版权法。以下是主要案件及其争议焦点的概述。
美国作家协会等诉OpenAI和微软案:
2023年9月,美国作家协会及多位小说作家提起集体诉讼,指控ChatGPT等AI工具未经许可、未署名且未向创作者支付报酬,擅自使用受版权保护的文本。原告称“这些算法的核心是大规模系统性剽窃”,威胁到作家的生计,并合理推测“AI生成内容导致的市场稀释将最终导致职业作家数量缩减,更多人类作者将难以维持生计,且多元化的声音会被边缘化”。(请阅读该诉讼书的最新版本)
针对版权侵权的指控,OpenAI辩称AI模型的开发和生产受法律“合理使用”条款保护。其回应基于两点主张:
强调技术的“高度转化性”——模型将训练数据从文字形式转化为数字表示和算法;
区分训练数据与输出数据,主张版权仅涉及训练数据。尽管承认输出数据可能与原创内容竞争(从而违反合理使用原则),但OpenAI认为输出数据“超出版权范畴,属于自动化、劳动与经济增长关系的更广泛议题”,并称“此类分配主张应通过税收和再分配解决,而非版权政策”。(《”Comment of OpenAI, LP”》第12页,阅读OpenAI完整回应)
《纽约时报》诉OpenAI案:
2023年12月,《纽约时报》(NYT)起诉OpenAI使用其文章训练ChatGPT的语言模型。诉讼附有数百页ChatGPT生成内容作为证据(参见证据J),显示ChatGPT能生成与NYT文章几乎逐字重复的输出,且模仿该报纸的“表达风格”。NYT认为这些输出与原创内容构成竞争,违反合理使用原则,称“未经付费使用《纽约时报》内容来创造替代性产品并抢夺其受众的行为毫无‘转化性’可言”。
OpenAI则申请驳回此案,辩称ChatGPT并非NYT的替代品,普通用户不会将其用于此目的。关于合理使用,OpenAI指出语法和句法等语言形式不属于可版权化数据,并预测“OpenAI及其他被告终将胜诉,因为无人(包括《纽约时报》)能垄断事实或语言规则”。
其他诉讼:
除上述案件外,StabilityAI、DeviantArt和Midjourney也面临类似诉讼。版权争议同样涉及开源数据,例如针对代码生成工具Github Copilot的诉讼,因其可能违反禁止商业用途的开源协议。