Meta 首席执行官马克·扎克伯格(Mark Zuckerberg)在一场 AI 版权诉讼中,以 YouTube 在打击盗版内容方面的努力为例,为其公司使用包含版权电子书的数据集进行辩护。这一辩护内容来自于他去年年底给出的证词片段,这些片段最近刚刚公布。
这些证词片段是作为原告律师提交给法院的投诉的一部分,与 AI 版权案件 Kadrey v. Meta Platforms 有关。这是众多在美国法院系统中审理的 AI 版权案件之一,这些案件将 AI 公司与作者和其他知识产权持有者对立起来。在这些案件中,被告方(AI 公司)大多声称在版权内容上进行训练属于“合理使用”,而许多版权持有者则持不同意见。
“例如,YouTube 可能会暂时托管一些被盗版的内容,但 YouTube 正在努力将其下架。”扎克伯格在证词中说道,“YouTube 上的绝大多数内容,我相信是合法的,并且他们拥有相应的授权。”
扎克伯格的证词片段为我们提供了一些关于他对版权内容和合理使用的思考线索。然而,需要注意的是,证词的完整文本并未公布。TechCrunch 已经联系 Meta 以获取更多信息,并将在公司回应后更新文章。
根据证词片段,扎克伯格似乎在为 Meta 使用名为 LibGen 的电子书训练数据集进行辩护,Meta 使用该数据集开发了其名为 Llama 的 AI 模型系列。Meta 的 Llama 模型与 OpenAI 等 AI 公司的旗舰模型竞争。
LibGen 自称为一个“链接聚合器”,提供来自包括 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的版权作品。LibGen 曾多次被起诉,被勒令关闭,并因版权侵权被罚款数千万美元。
根据本周解封的法庭文件,尽管公司内部的 AI 执行团队和研究团队对法律后果表示担忧,扎克伯格仍批准使用 LibGen 来训练 Meta 的至少一个 Llama 模型。
原告的律师,包括畅销书作家 Sarah Silverman 和 Ta-Nehisi Coates,引用 Meta 员工的话称 LibGen 是一个“我们知道是盗版的数据集”,并指出其使用“可能会削弱 Meta 与监管机构的谈判立场”,根据法律文件。
在证词中,扎克伯格声称他“真的没听说过”LibGen。
“我明白你想让我对 LibGen 发表意见,但我真的没听说过它。”扎克伯格在证词中说道,“我只是没有这方面的具体知识。”
在接受原告律师 David Boies 的质询时,扎克伯格解释了为什么禁止使用像 LibGen 这样的数据集是不合理的。
“难道我应该因为 YouTube 上可能有部分内容是受版权保护的,就禁止人们使用 YouTube 吗?不。”他说,“在某些情况下,实施这样的全面禁令可能并不是正确的事情。”
扎克伯格还表示,Meta 在使用版权材料进行训练时应该“非常谨慎”。
“如果有人运营一个网站,他们故意侵犯他人的权利……显然,这是我们需要谨慎对待的事情,或者小心我们如何与之合作,甚至可能阻止我们的团队与之合作。”扎克伯格在证词中说道。
新指控
自 2023 年在加利福尼亚北区联邦法院旧金山分院提起诉讼以来,Kadrey v. Meta Platforms 案的原告律师已经多次修改投诉。原告律师在本周三晚些时候提交的最新修正投诉中,对 Meta 提出了新的指控,包括该公司将 LibGen 中的某些盗版书籍与可供许可的版权书籍进行交叉比对。律师声称 Meta 使用这种策略来决定是否与出版商签订许可协议。
根据修正后的投诉,Meta 据称使用 LibGen 训练了其最新的 Llama 模型系列——Llama 3。原告还声称 Meta 正在使用该数据集训练其下一代 Llama 4 模型。
修正后的投诉还称,Meta 的研究人员试图通过在 Llama 的微调中插入“监督样本”来掩盖 Llama 模型是基于版权材料训练的事实。此外,原告声称 Meta 最近一次从另一个来源——Z-Library 下载盗版电子书用于 Llama 训练是在 2024 年 4 月。
Z-Library(或 Z-Lib)也因出版商提起的多项法律行动而成为目标,包括域名查封和下架。2022 年,据称维护该网站的俄罗斯人因版权侵权、电信欺诈和洗钱罪被起诉。