HyperAIHyperAI

Command Palette

Search for a command to run...

AI训练使用GPL代码:模型是否继承开源许可?法律争议与理论现状解析

关于GPL许可证是否会在训练AI模型时“传播”至模型本身的问题,目前仍处于法律与技术尚未明确的灰色地带。尽管2021年GitHub Copilot推出后,这一理论曾引发广泛讨论,认为使用GPL代码训练AI模型会导致整个模型必须开源,但截至2025年,该观点已不再主流,也未被司法系统正式采纳。 目前,两大关键诉讼案件——美国的“Doe v. GitHub”(Copilot集体诉讼)和德国的“GEMA v. OpenAI”——成为这一问题的核心焦点。前者指控GitHub、微软和OpenAI在未获许可的情况下使用开源代码训练模型,且未履行署名、公开衍生作品等义务,构成对MIT、Apache-2.0及GPL等许可证的违反。法院虽驳回了部分索赔(如DMCA侵权、不正当得利等),但保留了“违反开源许可证合同”的主张,允许原告继续请求禁令,防止Copilot在无适当授权标识的情况下输出他人代码。这表明,尽管未认定模型本身为GPL衍生作品,但训练过程中的许可合规问题仍具法律争议。 后者则更具理论突破意义:德国慕尼黑第一地区法院裁定,若AI模型“记忆”并可几乎原样输出受版权保护的歌词(如GPT-4/4o对9首德语歌曲的复现),则该“内部记忆”构成《德国著作权法》中的“复制”行为。法院明确指出,即使代码以参数权重形式编码,只要可被人类通过简单提示还原,即构成法律意义上的复制。这一判决首次在司法层面承认“模型内部包含作品副本”,为“许可证传播”理论提供了潜在法律基础。 然而,上述判决并未直接支持“GPL传播至模型”的结论。在版权法层面,多数观点认为AI模型本质上是统计抽象,其参数无法被人类直接感知为原始代码,因此不构成“可识别的衍生作品”或“复制件”。英国高等法院在Getty v. Stability AI案中也持类似立场,认为Stable Diffusion模型本身并非侵权复制。 从GPL文本本身看,其核心是针对“修改或链接GPL代码”的软件,而AI模型是大规模数据统计学习的结果,其结构与传统软件差异巨大。若强制适用GPL,将面临“首选修改形式”难以界定(模型权重不可读)、训练数据范围模糊、甚至需公开全部训练数据等现实困境,严重偏离GPL促进自由软件发展的初衷。 技术上,大模型并非数据库,其输出具有概率性与随机性,极少出现完全复现。即便存在片段记忆,也仅占极小比例,将其视为“包含GPL代码”属于过度泛化。此外,若所有训练数据中的许可证(包括GPL、MIT、专有等)均“传播”至模型,将导致模型需同时满足上万种互斥条款,实际不可行。 从政策与实践角度看,强制GPL传播将导致企业为规避风险而彻底排除GPL代码,反而削弱GPL生态在AI时代的可用性,违背开源精神。当前国际趋势更倾向于通过数据透明、训练可复现、输出标注等机制保障责任,而非一刀切地要求模型开源。 开源组织OSI与FSF对此持不同态度:OSI在2024年发布的《开放源码AI定义》中,要求公开模型权重、训练数据信息与训练代码,但不强制公开全部训练数据,强调可操作性与现实平衡。FSF则主张AI应实现“四自由”,包括训练数据与参数的自由,但其立场更多是理想导向,尚未形成可执行的法律框架。 综上,GPL传播至AI模型的理论在2025年仍未被法律确认,也面临版权、技术、政策三重障碍。虽然诉讼中对训练数据合规性的审查日益严格,但模型本身被认定为GPL衍生作品的可能性极低。未来更可能的发展路径是:通过行业自律、技术工具(如自动许可证标注)、透明化机制来实现责任与自由的平衡,而非依赖激进的法律解释。当前最现实的策略,是推动AI时代的“开放”与“可复现”,而非简单套用旧有许可证逻辑。

相关链接

AI训练使用GPL代码:模型是否继承开源许可?法律争议与理论现状解析 | 热门资讯 | HyperAI超神经