Code n’est pas un afterthought : comment valoriser, partager et préserver le logiciel scientifique
Le code informatique joue un rôle central dans la recherche scientifique moderne, qu’il s’agisse de scripts courts ou de simulations complexes du climat terrestre, de la structure des protéines ou de l’univers. Il sert à concevoir des expériences, traiter, organiser, analyser, visualiser et archiver des données, ou encore contrôler des instruments. Pourtant, il est souvent traité comme une étape secondaire, malgré son importance fondamentale pour la reproductibilité et l’intégrité scientifique. Les logiciels évoluent constamment, souvent de manière itérative et collaborative, sans qu’une « version de référence » soit publiée. Cette fluidité, combinée à des cycles de mise à jour fréquents — parfois quotidiens —, rend difficile la citation, la traçabilité et la conservation à long terme. Un paradoxe subsiste : comme les données, le code doit être conservé et publié, mais il doit aussi rester accessible, maintenable et améliorable. Cette tension pose un défi majeur aux institutions, aux bibliothécaires, aux financeurs et aux éditeurs. L’approche FAIR (trouvabilité, accessibilité, interopérabilité, réutilisabilité), initialement conçue pour les données, s’avère peu adaptée au logiciel. Elle impose une charge administrative massive — mise à jour des métadonnées, gestion des dépendances, révision des listes d’auteurs — qui serait disproportionnée, surtout pour des projets à forte contribution collaborative. Face à ces limites, nous proposons une alternative : le cadre « CODE beyond FAIR ». Ce modèle, fondé sur notre expérience en développement logiciel scientifique et sur les bonnes pratiques des communautés FOSS (logiciels libres et open source), vise à valoriser, partager et maintenir le code de manière durable, sans surcharge bureaucratique. Il s’adresse à deux groupes : les chercheurs développeurs (avec des recommandations pratiques) et les institutions, financeurs, bibliothèques et éditeurs (avec des orientations stratégiques). Il est essentiel de former les scientifiques à partager leur code. Bien que les licences permissives soient de plus en plus courantes, surtout en informatique, mathématiques et physique, la majorité des logiciels ne sont toujours pas publiés. Des plateformes comme GitHub, GitLab, Zenodo ou Software Heritage permettent de partager et d’archiver le code, y compris son historique complet. Mais la formation reste clé. Intégrer dès la première année du doctorat une initiation à l’ingénierie logicielle dans tous les cursus scientifiques — comme le font déjà Stanford, Harvard, Oxford ou Cambridge — serait un pas décisif. Des initiatives internationales comme Neuromatch Academy ou The Carpentries ont déjà démontré leur efficacité, avec des milliers de participants formés à des compétences de base (Shell, Python, gestion de versions) et avancées (statistiques, apprentissage automatique). Enfin, les éditeurs doivent imposer, à la soumission, la mise en ligne et l’archivage du code via des boutons simples sur des plateformes comme Software Heritage ou GitHub. Les institutions doivent soutenir la mise en réseau des portails d’archivage, comme le fait l’European Open Science Cloud, pour assurer une interopérabilité entre projets et versions. En résumé, le code ne doit plus être un après-pensé. Il faut le traiter comme une contribution scientifique majeure, valorisée, partagée et durablement maintenue — non par des procédures lourdes, mais par une culture et des infrastructures adaptées.
