并假设训练数据确实是开源许可的衍生品
Posted: Mon Jan 20, 2025 2:41 pm
我并不完全认同第一个假设。毫无疑问,Github 中存储的代码是在开源许可下发布的,这些许可包括 MIT 等学术许可,以及 GPL 等版权许可,这些许可的共同要求是,只要符合许可条款(署名、相同方式共享等),人们就可以使用代码制作衍生品。法律问题完全取决于将该代码用作训练数据是否会触发这些许可条款,而这很可能是一个必须研究 OpenAI 的 Codex 内部运作的论点。Codex 是否复制了代码?如果是,它是否生成了该代码的衍生品?阅读和学习该代码是否符合许可条款中的“使用”规定,并且生成的代码是否是原始程序的衍生品?
我对 Codex 和 Copilot 的内部工作原理了解不够多,无法回答这个问题,但我认为回答这个问题并不容易。这让我想起了具有里程碑意义的谷歌诉甲骨文案,在该案中,甲骨文声称谷歌在早期版本的 Android 中使用他们的 Java API 侵犯了版权。虽然法院裁定 API 拥有版权,但最终发现谷歌的使用是合理的,这一决定在一定程度上取决于谷歌代码与 API 交互的技术细节。我可以想象这里也会出现类似的争论,其中将检查使用代码训练数据时会发生什么的技术细节。结果可能有所不同,但如果我是一个赌徒,我会把钱押在它不是衍生品上,至少基于我对机器学习模型的有限了解。
但是,让我们将第一点交给 Butterick,。接下来呢?那么 Copilot 将不得不依靠合理使用辩护,辩称使用 Github 的代码来训练机器学习模型本身就是合理使用。
我原则上同意,没有直接的判例法来处理人工智能训练中的合理使用问题。但是,有充分的理由证明训练数据是合理使用的,其中包括Author's Guild 诉 Google 案,以及前面提到的 Google 诉 Oracle 案。确实,这还没有定论,而且与第一个假设一样,法庭案件很容易支持那些声称侵犯版权的人,但无论如何,我认为这不是一个轻而易举的论点。
猜测时间
这看起来是美国第一起专门处理机器学习和合理使用的案件。我一直期待这 德国手机数据 样的事情发生,但我很惊讶它还没有发生。原因可能是一些版权所有者不愿意测试使用版权作品训练机器学习是否合理使用的假设,因为负面决定(如果你站在人工智能开发者一边,则是正面决定)将对版权所有者造成毁灭性打击。至少就目前情况而言,对于数据集中侵犯版权的法律状况仍然存在合理怀疑,我们已经看到一些公司正是因为担心侵犯版权而不愿意加入人工智能潮流。直接宣布训练数据是合理使用的最终将打消这些担忧。
如果此案继续审理,那么它将成为第一个验证这一理论的案例。它很可能会成功,但我不敢保证会有什么结果。有一点很清楚,如果此案继续审理,将需要数年时间,任何下级法院的判决都会被上诉,而且上诉可能会一直到美国最高法院。所以我们谈论的是数年的不确定性。
然而,有一件事是肯定的,那就是其他国家已经颁布了立法,宣布训练机器学习是合法的。自 2014 年以来,英国对用于研究目的的文本和数据挖掘版权有例外规定,欧盟于 2019 年通过了《数字单一市场指令》,其中包含了所有目的的文本和数据挖掘例外规定,只要作者没有保留其权利。
这些规定存在的实际结果是,虽然美国正在进行诉讼,但大多数数据挖掘和培训业务将转移到欧洲,美国人工智能公司只需授权训练好的模型即可。当然,这可能会在美国法庭上受到质疑,但我认为这很难执行,特别是因为培训是在完全合法的司法管辖区进行的。结果将使美国在人工智能军备竞赛中处于劣势。
我对 Codex 和 Copilot 的内部工作原理了解不够多,无法回答这个问题,但我认为回答这个问题并不容易。这让我想起了具有里程碑意义的谷歌诉甲骨文案,在该案中,甲骨文声称谷歌在早期版本的 Android 中使用他们的 Java API 侵犯了版权。虽然法院裁定 API 拥有版权,但最终发现谷歌的使用是合理的,这一决定在一定程度上取决于谷歌代码与 API 交互的技术细节。我可以想象这里也会出现类似的争论,其中将检查使用代码训练数据时会发生什么的技术细节。结果可能有所不同,但如果我是一个赌徒,我会把钱押在它不是衍生品上,至少基于我对机器学习模型的有限了解。
但是,让我们将第一点交给 Butterick,。接下来呢?那么 Copilot 将不得不依靠合理使用辩护,辩称使用 Github 的代码来训练机器学习模型本身就是合理使用。
我原则上同意,没有直接的判例法来处理人工智能训练中的合理使用问题。但是,有充分的理由证明训练数据是合理使用的,其中包括Author's Guild 诉 Google 案,以及前面提到的 Google 诉 Oracle 案。确实,这还没有定论,而且与第一个假设一样,法庭案件很容易支持那些声称侵犯版权的人,但无论如何,我认为这不是一个轻而易举的论点。
猜测时间
这看起来是美国第一起专门处理机器学习和合理使用的案件。我一直期待这 德国手机数据 样的事情发生,但我很惊讶它还没有发生。原因可能是一些版权所有者不愿意测试使用版权作品训练机器学习是否合理使用的假设,因为负面决定(如果你站在人工智能开发者一边,则是正面决定)将对版权所有者造成毁灭性打击。至少就目前情况而言,对于数据集中侵犯版权的法律状况仍然存在合理怀疑,我们已经看到一些公司正是因为担心侵犯版权而不愿意加入人工智能潮流。直接宣布训练数据是合理使用的最终将打消这些担忧。
如果此案继续审理,那么它将成为第一个验证这一理论的案例。它很可能会成功,但我不敢保证会有什么结果。有一点很清楚,如果此案继续审理,将需要数年时间,任何下级法院的判决都会被上诉,而且上诉可能会一直到美国最高法院。所以我们谈论的是数年的不确定性。
然而,有一件事是肯定的,那就是其他国家已经颁布了立法,宣布训练机器学习是合法的。自 2014 年以来,英国对用于研究目的的文本和数据挖掘版权有例外规定,欧盟于 2019 年通过了《数字单一市场指令》,其中包含了所有目的的文本和数据挖掘例外规定,只要作者没有保留其权利。
这些规定存在的实际结果是,虽然美国正在进行诉讼,但大多数数据挖掘和培训业务将转移到欧洲,美国人工智能公司只需授权训练好的模型即可。当然,这可能会在美国法庭上受到质疑,但我认为这很难执行,特别是因为培训是在完全合法的司法管辖区进行的。结果将使美国在人工智能军备竞赛中处于劣势。