Une nouvelle feuille de route pour évaluer la moralité des IA promet un saut qualitatif dans la confiance des systèmes d’intelligence artificielle
Les modèles linguistiques à grande échelle (LLM) sont de plus en plus sollicités pour traiter des informations sensibles sur le plan moral, que ce soit pour des conseils médicaux, du soutien émotionnel ou même une forme de thérapie. Pourtant, ils ne sont pas réellement dotés d’un sens moral. Dans un nouvel article publié dans Nature, des chercheurs de Google DeepMind proposent une nouvelle feuille de route scientifique pour évaluer la compétence morale des IA — c’est-à-dire leur capacité à prendre des décisions fondées sur des principes éthiques — plutôt que de se contenter de reproduire des schémas observés dans les données d’entraînement. Selon les auteurs, cette mesure est cruciale pour garantir un déploiement sécurisé des systèmes d’intelligence artificielle à grande échelle. Actuellement, les évaluations se concentrent sur la performance morale : la capacité du modèle à produire une réponse qui semble éthique. Mais cela ne révèle rien sur sa compréhension réelle des enjeux moraux ni sur la logique qui sous-tend ses choix. Cette approche peut facilement conduire à des illusions de moralité, où l’IA donne l’impression d’être éthique sans véritablement la comprendre. Le papier identifie trois défis fondamentaux. Le premier est le problème du fac-similé : l’IA peut imiter une réflexion morale sans en posséder la substance. Le second concerne la complexité intrinsèque de la morale, où une décision peut impliquer un équilibre entre plusieurs valeurs contradictoires — équité, coût, honnêteté, convenances sociales — et où les modèles peinent à gérer ces conflits. Le troisième défi est l’absence de réponse unique et définitive : les normes morales varient selon les cultures, les pays, les professions, ce qui rend toute évaluation universelle difficile. Face à ces obstacles, les chercheurs proposent une nouvelle stratégie d’évaluation reposant sur trois méthodes complémentaires. Premièrement, présenter aux modèles des scénarios rares ou inédits dans leurs données d’entraînement, afin de tester si leur réponse repose sur une logique réelle ou simplement sur des associations mémorisées. Deuxièmement, modifier légèrement un détail dans des scénarios similaires — par exemple l’âge d’une personne ou le coût d’une erreur — pour observer si l’IA détecte ce qui est vraiment pertinent moralement. Troisièmement, évaluer la capacité de l’IA à adapter sa réflexion éthique à un cadre culturel ou professionnel spécifique, plutôt que de proposer une « vérité universelle » simpliste. En somme, les auteurs insistent sur l’importance de mesurer non pas seulement ce que dit l’IA, mais comment il le dit — et surtout, pourquoi. Seule une évaluation de la compétence morale permettra de s’assurer que ces systèmes peuvent être vraiment fiables dans des décisions cruciales, comme celles liées à la santé, à la justice ou à la vie privée. Cette avancée représente une étape essentielle vers une intelligence artificielle plus responsable, plus transparente et plus digne de confiance.
