HyperAIHyperAI

Command Palette

Search for a command to run...

L’IA génère des recherches, mais où commence le plagiat ?

En janvier, Byeongjun Park, chercheur en intelligence artificielle (IA) au Korea Advanced Institute of Science and Technology (KAIST), a reçu un courriel inattendu : deux chercheurs indiens, Tarun Gupta et Danish Pruthi, lui signalaient qu’un article généré par une IA avait utilisé des méthodes issues d’un de ses travaux sans attribution. L’article, non publié mais partagé en ligne, était l’un des résultats du projet The AI Scientist, un outil développé par Sakana AI, une entreprise japonaise, annoncé en 2024. Ce système, basé sur un modèle de langage massif (LLM), conçoit, code, exécute et rédige lui-même des recherches en informatique, en les marquant clairement comme générés par une IA. Il s’inscrit dans une démarche ambitieuse visant à automatiser la découverte scientifique. Bien que l’article n’ait pas copié mot à mot le travail de Park, celui-ci a reconnu une forte similarité méthodologique. Son article portait sur l’amélioration de la formation des modèles de diffusion, utilisés dans les générateurs d’images, tandis que l’IA proposait une nouvelle architecture pour ces mêmes modèles. Pour Park, cette ressemblance était frappante, bien qu’il hésite à qualifier cela de « plagiat » au sens strict. Gupta et Pruthi, chercheurs à l’Indian Institute of Science, ont mené une analyse plus large. En février, ils ont publié une étude montrant que plusieurs articles générés par des IA, y compris ceux de The AI Scientist et d’une étude de Chenglei Si (Stanford), reprenaient des idées ou méthodes d’articles antérieurs sans les citer. Bien que les textes ne soient pas copiés verbatim, les experts consultés ont identifié des « surchages » méthodologiques significatifs. Leurs résultats, couronnés d’un prix d’excellence à la conférence ACL en juillet, ont soulevé un débat majeur : peut-on parler de plagiat d’idées quand une IA, sans intention malveillante, réutilise des connaissances sans crédit ? L’équipe derrière The AI Scientist a fortement contesté ces conclusions, les qualifiant de « fausses, infondées et exagérées ». Elle affirme que les différences d’hypothèses et de domaines d’application justifient l’originalité des travaux. Elle admet toutefois que certaines références auraient pu être citées, mais souligne que les chercheurs humains commettent aussi régulièrement cette omission. D’autres experts, comme Ben Hoover (Georgia Tech), estiment que la similarité avec le travail de Park est modérée (note 3 sur 5), et rejettent le terme de « plagiat », préférant parler d’omission ou de ressemblance superficielle. Le débat touche à un problème fondamental : la notion de « plagiat d’idées », peu discutée jusqu’ici, devient critique avec l’essor des IA. Debora Weber-Wulff, spécialiste du plagiat à l’Université des sciences appliquées de Berlin, insiste : « Le plagiat ne doit pas dépendre de l’intention. Une IA ne peut pas citer ses sources parce qu’elle n’a pas de conscience de l’origine de ses connaissances. » Selon elle, le plagiat survient quand une œuvre utilise des idées, des mots ou des produits d’un auteur identifiable sans attribution, dans un contexte où l’originalité est attendue. La difficulté réside dans la détection : les IA remixent et interpolent des données d’entraînement, ce qui rend inévitable une certaine reprise d’idées. Mais il n’existe pas de mécanisme fiable pour vérifier l’originalité ou la provenance des idées générées. Ce manque de transparence menace l’intégrité du système scientifique, où la reconnaissance des contributions est essentielle. L’avenir de la recherche automatisée dépendra donc autant de la technologie que de nouvelles normes éthiques et de systèmes de vérification capables de faire face à cette nouvelle forme de « créativité » sans conscience.

Liens associés