HyperAI

关于GPL许可证是否会在训练AI模型时“传播”至模型本身的问题，目前仍处于法律与技术尚未明确的灰色地带。尽管2021年GitHub Copilot推出后，这一理论曾引发广泛讨论，认为使用GPL代码训练AI模型会导致整个模型必须开源，但截至2025年，该观点已不再主流，也未被司法系统正式采纳。目前，两大关键诉讼案件——美国的“Doe v. GitHub”（Copilot集体诉讼）和德国的“GEMA v. OpenAI”——成为这一问题的核心焦点。前者指控GitHub、微软和OpenAI在未获许可的情况下使用开源代码训练模型，且未履行署名、公开衍生作品等义务，构成对MIT、Apache-2.0及GPL等许可证的违反。法院虽驳回了部分索赔（如DMCA侵权、不正当得利等），但保留了“违反开源许可证合同”的主张，允许原告继续请求禁令，防止Copilot在无适当授权标识的情况下输出他人代码。这表明，尽管未认定模型本身为GPL衍生作品，但训练过程中的许可合规问题仍具法律争议。后者则更具理论突破意义：德国慕尼黑第一地区法院裁定，若AI模型“记忆”并可几乎原样输出受版权保护的歌词（如GPT-4/4o对9首德语歌曲的复现），则该“内部记忆”构成《德国著作权法》中的“复制”行为。法院明确指出，即使代码以参数权重形式编码，只要可被人类通过简单提示还原，即构成法律意义上的复制。这一判决首次在司法层面承认“模型内部包含作品副本”，为“许可证传播”理论提供了潜在法律基础。然而，上述判决并未直接支持“GPL传播至模型”的结论。在版权法层面，多数观点认为AI模型本质上是统计抽象，其参数无法被人类直接感知为原始代码，因此不构成“可识别的衍生作品”或“复制件”。英国高等法院在Getty v. Stability AI案中也持类似立场，认为Stable Diffusion模型本身并非侵权复制。从GPL文本本身看，其核心是针对“修改或链接GPL代码”的软件，而AI模型是大规模数据统计学习的结果，其结构与传统软件差异巨大。若强制适用GPL，将面临“首选修改形式”难以界定（模型权重不可读）、训练数据范围模糊、甚至需公开全部训练数据等现实困境，严重偏离GPL促进自由软件发展的初衷。技术上，大模型并非数据库，其输出具有概率性与随机性，极少出现完全复现。即便存在片段记忆，也仅占极小比例，将其视为“包含GPL代码”属于过度泛化。此外，若所有训练数据中的许可证（包括GPL、MIT、专有等）均“传播”至模型，将导致模型需同时满足上万种互斥条款，实际不可行。从政策与实践角度看，强制GPL传播将导致企业为规避风险而彻底排除GPL代码，反而削弱GPL生态在AI时代的可用性，违背开源精神。当前国际趋势更倾向于通过数据透明、训练可复现、输出标注等机制保障责任，而非一刀切地要求模型开源。开源组织OSI与FSF对此持不同态度：OSI在2024年发布的《开放源码AI定义》中，要求公开模型权重、训练数据信息与训练代码，但不强制公开全部训练数据，强调可操作性与现实平衡。FSF则主张AI应实现“四自由”，包括训练数据与参数的自由，但其立场更多是理想导向，尚未形成可执行的法律框架。综上，GPL传播至AI模型的理论在2025年仍未被法律确认，也面临版权、技术、政策三重障碍。虽然诉讼中对训练数据合规性的审查日益严格，但模型本身被认定为GPL衍生作品的可能性极低。未来更可能的发展路径是：通过行业自律、技术工具（如自动许可证标注）、透明化机制来实现责任与自由的平衡，而非依赖激进的法律解释。当前最现实的策略，是推动AI时代的“开放”与“可复现”，而非简单套用旧有许可证逻辑。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

AI训练使用GPL代码：模型是否继承开源许可？法律争议与理论现状解析

相关链接

Command Palette

AI训练使用GPL代码：模型是否继承开源许可？法律争议与理论现状解析

相关链接

Command Palette

AI训练使用GPL代码：模型是否继承开源许可？法律争议与理论现状解析

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化