L’IA au secours des comités d’éthique : promesse d’efficacité ou risque de déshumanisation ?
Philip Nickel se souvient de son expérience au sein d’un comité d’éthique institutionnel (IRB) comme une tâche importante, mais fastidieuse. Ces comités examinent toutes les études humaines proposées afin de protéger les participants contre les risques. Leur travail consiste à trier des dossiers pouvant atteindre plusieurs centaines de pages, souvent mal rédigés, ce qui aggrave les retards. « On finit par s’habituer aux mêmes erreurs », dit Nickel, éthicien biomédical à l’Université de technologie d’Eindhoven. « On se dit : il doit bien y avoir un moyen d’éviter ça. » Certaines personnes voient une solution dans l’intelligence artificielle (IA). Les grands modèles linguistiques (LLM), comme ChatGPT d’OpenAI ou Claude d’Anthropic, pourraient préanalyser les dossiers en repérant les manques, les erreurs ou des problèmes éthiques ou juridiques potentiels. Cela permettrait aux examinateurs humains de se concentrer sur les jugements éthiques complexes. Toutefois, des sceptiques mettent en garde : les utilisateurs pourraient trop s’appuyer sur l’IA, et les modèles risqueraient de reproduire des biais présents dans leurs données d’entraînement. Pourtant, face à la surcharge croissante des dossiers, explorer ces alternatives pourrait devenir une exigence éthique, selon Sebastian Porsdam Mann, éthicien à l’Université de Copenhague. Brian Earp, éthicien à l’Université nationale de Singapour (NUS), insiste : « Je ne pense pas qu’il soit justifiable de ne pas utiliser l’IA à court terme. » Aucun comité IRB n’a encore intégré formellement un LLM dans son processus. Mais des expériences récentes montrent des résultats prometteurs. Une étude publiée l’an dernier a montré que quatre LLM — Google Bard, GPT-3.5, GPT-4 et Claude-Instant-100k — identifiaient de manière fiable des défauts dans les calculs risque-bénéfice ou les protections des participants dans sept projets de recherche médicale. En juillet, une prépublication a rapporté que GPT-4o et Gemini 1.5 Pro repéraient 100 % des problèmes identifiés par des examinateurs dans 50 propositions soumises à un comité d’éthique pour recherches animales. Des chercheurs veulent maintenant améliorer ces modèles en les « fine-tunant » avec des données spécifiques aux IRB : normes légales, politiques institutionnelles, décisions passées, ou encore contextes culturels. « Si on entraîne un modèle sur les dossiers antérieurs d’un IRB, il pourrait apprendre à penser comme ses membres », explique Porsdam Mann, co-auteur d’un article récent dans The Journal of Medical Ethics. Contrairement aux humains, souvent non spécialistes en éthique, les IA pourraient offrir une plus grande cohérence et transparence. L’utilisation de modèles à raisonnement explicite — comme les o-series d’OpenAI ou Sonnet d’Anthropic — permettrait de suivre pas à pas la logique de l’IA, évitant le problème du « boîte noire ». Une autre technique consiste à ancrer les réponses dans des sources concrètes : manuels IRB, FAQ, politiques officielles — ce qui réduit les risques d’hallucinations. L’objectif n’est pas de remplacer les humains, mais de les décharger des tâches répétitives pour qu’ils se concentrent sur les enjeux fondamentaux, selon Seah Jiehao, co-auteur et éthicien à NUS. Mais d’autres craignent que l’IA ne prenne trop de place. Holly Fernandez Lynch, éthicienne à l’Université de Pennsylvanie, met en garde contre la pression des organisations commerciales, souvent motivées par la rentabilité, qui pourraient privilégier la rapidité au détriment de la rigueur. En 2021, ces IRB privés ont examiné près de la moitié des études sur de nouveaux médicaments. Un rapport de 2023 de la GAO souligne leur manque de contrôle fédéral. Donna Snyder, médecin en chef chez WCG IRB, affirme que si l’IA était utilisée, ce serait pour aider les experts à retrouver des précédents, pas pour accélérer à tout prix. Enfin, l’IA pourrait aider les IRB sous-dotés, notamment dans les pays du Sud. Keymanthri Moodley, médecin et éthicienne à l’Université de Stellenbosch, décrit la charge de travail comme « écrasante ». Mais elle prévient que les modèles entraînés sur des normes occidentales peuvent être inappropriés dans d’autres contextes culturels. Steph Grohmann, anthropologue au Ludwig Boltzmann Gesellschaft, pense que l’évolution est inévitable. Elle a développé une version expérimentale, EthicAlly, basée sur Claude Sonnet 4, qui aide à préparer des projets en sciences humaines en repérant des failles éthiques. Dans 25 scénarios fictifs, elle a correctement identifié 24 problèmes, allant d’oublis simples à des violations graves comme le racisme scientifique. Grohmann et Seah prévoient d’évaluer différents LLM commerciaux, puis de passer à des versions open source ou locales, pour préserver la confidentialité des données. « Ce qui convaincra les sceptiques, c’est une IA contrôlée par la communauté scientifique, transparente et accessible », dit-elle. Pourtant, Fernandez Lynch insiste : « Les IRB ne sont pas censés être algorithmiques. Il y a une valeur intrinsèque à une discussion humaine, collective et réfléchie sur la protection éthique des participants. »