HyperAIHyperAI

Command Palette

Search for a command to run...

Le GPL s’étend-il aux modèles d’IA entraînés sur du code open source ? Une affaire en suspens après les poursuites de GitHub Copilot et OpenAI

Depuis le lancement de GitHub Copilot en 2021, la question de la propagation du droit d’auteur, notamment du GNU General Public License (GPL), aux modèles d’intelligence artificielle entraînés sur du code open source a suscité un débat intense. L’idée selon laquelle l’utilisation de code sous licence GPL dans les données d’entraînement entraînerait la reproduction de cette licence sur le modèle lui-même — imposant ainsi sa diffusion sous GPL — a été largement discutée, surtout dans les cercles du logiciel libre. Cette théorie repose sur l’idée que le modèle constituerait une œuvre dérivée du code d’origine, ce qui, selon les principes du copyleft, imposerait la divulgation de sa source. Cependant, à l’heure actuelle (2025), bien que cette théorie ne soit pas entièrement réfutée, elle a perdu de sa vigueur dans les débats publics, largement dépassée par l’adoption massive des outils d’IA en programmation. Deux procès majeurs continuent toutefois à maintenir cette question en suspens : Doe v. GitHub (action de groupe contre Copilot) aux États-Unis et GEMA v. OpenAI en Allemagne. Dans le premier, les plaignants allèguent une violation des licences open source, notamment le GPL, en raison du traitement non conforme du code dans les données d’entraînement et des sorties du modèle. Bien que les revendications liées au DMCA aient été rejetées, la question de la violation contractuelle des licences — notamment l’absence d’attribution ou de divulgation des œuvres dérivées — reste ouverte. Le tribunal a reconnu qu’il existe des motifs suffisants pour une injonction contre la reproduction non autorisée du code, sans toutefois statuer sur la propagation de la licence GPL au modèle lui-même. Le second procès, GEMA v. OpenAI, est fondamental pour la jurisprudence. La cour de Munich a jugé que la mémoire interne d’un modèle d’IA, capable de reproduire fidèlement des paroles de chansons, constitue une « reproduction » au sens du droit d’auteur allemand, même si elle est encodée sous forme de poids probabilistes. Cette décision, bien que limitée à des cas extrêmes de reproduction quasi-parfaite, ouvre la voie à l’idée que le modèle peut contenir des copies protégées, ce qui renforce indirectement la théorie de la propagation de licence. En effet, si un modèle contient des fragments de code GPL, et que ce contenu est reproductible, il pourrait être considéré comme une œuvre dérivée, ce qui pourrait justifier l’application des conditions du GPL. Cependant, de nombreux arguments s’opposent à cette théorie. D’un point de vue juridique, le modèle n’est pas une copie directe du code d’origine, mais un ensemble de paramètres statistiques. Le droit d’auteur ne protège pas les idées ou les tendances, mais les expressions concrètes. Le High Court britannique, dans l’affaire Getty v. Stability AI, a rejeté l’idée que le modèle lui-même constituait une copie. D’un point de vue technique, les modèles ne stockent pas le code comme une base de données, mais en extraient des abstractions. La probabilité de reproduire exactement du code GPL est minime, et ne peut être généralisée. De plus, le GPL n’a pas été conçu pour couvrir des modèles d’IA : sa notion de « forme préférée pour modification » ne s’applique pas aux poids du modèle, qui sont illisibles par l’humain. Sur le plan politique et pratique, forcer la propagation du GPL à l’ensemble d’un modèle entraînerait des conséquences impraticables. Un modèle entraîné sur des milliers de projets open source, avec des licences variées (GPL, MIT, Apache, etc.), devrait respecter toutes les conditions, y compris les incompatibilités (ex. : GPL v2 vs Apache 2.0). Cela conduirait à une exclusion massive du code GPL des données d’entraînement, affaiblissant ainsi la valeur des projets open source dans l’ère de l’IA. Les organisations du logiciel libre adoptent des positions nuancées. L’OSI, dans sa Définition du logiciel libre pour l’IA (2024), exige la transparence sur les données d’entraînement et la publication des poids, mais ne requiert pas la divulgation intégrale des données. Elle évite ainsi la propagation automatique des licences. La FSF, plus rigoureuse, affirme que pour qu’un modèle soit libre, les données d’entraînement doivent aussi être libres, mais reconnaît que cela peut être impossible en pratique (ex. : données médicales). Elle ne prône pas l’application du GPL actuel au modèle, mais travaille à de nouvelles normes. En somme, la théorie de la propagation du GPL aux modèles d’IA n’est ni réfutée ni validée. Elle demeure une question ouverte, portée par des litiges en cours, mais confrontée à des obstacles juridiques, techniques et pratiques majeurs. L’avenir dépendra de l’évolution des jugements, des politiques publiques (comme l’IA Act européen) et de la capacité du mouvement open source à trouver des solutions équilibrées : transparence, reproductibilité, et respect des libertés, sans recourir à des interprétations extrêmes. L’objectif n’est pas de forcer le GPL sur l’IA, mais de préserver le libre accès, la collaboration et l’innovation dans un contexte technologique nouveau.

Liens associés