IA apprenant à dire « je ne sais pas »
Les modèles d'intelligence artificielle les plus performants partagent un défaut critique : ils délivrent toutes leurs réponses avec une certitude inébranlable, qu'ils connaissent la solution ou qu'ils devinent. Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont identifié la source de cette surconfiance dans la méthode d'entraînement et ont développé une solution nommée RLCR, qui corrige ce biais sans sacrifier la précision. La technique RLCR, ou apprentissage par renforcement avec récompenses de calibration, permet aux modèles de langage de produire des estimations de confiance calibrées en même temps que leurs réponses. Contrairement aux approches standard, le modèle apprend non seulement à résoudre un problème, mais aussi à évaluer son propre niveau d'incertitude. Lors d'expériences menées sur plusieurs benchmarks, cette méthode a réduit l'erreur de calibration de jusqu'à 90 %, tout en maintenant, voire en améliorant, la précision, tant sur des tâches entraînées que sur des scénarios entièrement nouveaux. Ce travail sera présenté lors de la Conférence internationale sur les représentations d'apprentissage. Le problème de fond provient d'une source surprenante. Les méthodes d'apprentissage par renforcement, utilisées dans les récents progrès de l'IA, récompensent uniquement l'obtention de la bonne réponse et pénalisent l'erreur. Rien ne distingue une réponse correcte obtenue par un raisonnement rigoureux d'une réponse juste obtenue par hasard. Au fil du temps, les modèles apprennent à répondre avec assurance à toute question, qu'ils aient ou non des preuves solides. Cette surconfiance pose de graves risques, notamment dans des domaines comme la médecine, le droit ou la finance. Un système qui affirme avoir 95 % de certitude alors qu'il ne réussit que la moitié du temps est plus dangereux qu'un modèle simplement erroné, car il ne donne aucun signal incitant l'utilisateur à vérifier les résultats. Comme l'expliquent Mehul Damani et Isha Puri, étudiants doctorants au MIT et co-auteurs principaux, l'approche standard ne donne aucune incitation au modèle à exprimer son incertitude ou à dire qu'il ne sait pas, l'amenant naturellement à deviner. La méthode RLCR résout ce problème en ajoutant un terme unique à la fonction de récompense : le score de Brier. Cet indicateur bien établi pénalise l'écart entre la confiance déclarée par le modèle et sa précision réelle. Pendant l'entraînement, les réponses sûres mais fausses sont pénalisées, tout comme les réponses correctes mais présentées avec une incertitude inutile. Les mathématiques confirment l'efficacité de cette structure de récompense, garantissant théoriquement des modèles à la fois précis et bien calibrés. Les tests sur un modèle de 7 milliards de paramètres ont montré que l'apprentissage par renforcement standard dégradait activement la calibration, tandis que RLCR inversait ce phénomène sans perte de précision. La méthode surpasse également les approches a posteriori où une classification séparée attribue des scores de confiance après la réponse. Les chercheurs ont également démontré l'utilité pratique des estimations de confiance lors de l'inférence. Lorsque les modèles génèrent plusieurs candidats, sélectionner celui avec la plus haute confiance déclarée ou pondérer les votes selon cette confiance améliore la précision et la calibration. Une découverte supplémentaire suggère que l'acte de raisonner sur l'incertitude lui-même a de la valeur : intégrer le raisonnement explicite d'incertitude du modèle dans l'entrée d'un classifieur améliore les performances, particulièrement pour les modèles plus petits, car ce raisonnement autoréflexif contient une information réelle et utile.
