Meta révolutionne l’intelligence artificielle : AggLM, une nouvelle méthode de renforcement, fait triompher la bonne réponse, même quand elle est seule
Au-delà de la règle de la majorité : comment Meta apprend aux modèles linguistiques énormes à trouver la bonne réponse, pas seulement celle qui est la plus populaire Imaginez une salle de classe où l’enseignant pose un problème de mathématiques particulièrement difficile. Après quelques minutes, la majorité des élèves lèvent la main, tous avec la même réponse — fausse, mais présentée avec assurance. Ils ont tous commis la même erreur subtile dans leur raisonnement. Pourtant, au fond de la pièce, un élève silencieux a suivi une démarche différente et a trouvé la solution correcte, non évidente, mais rigoureuse. Si l’on se contente d’un vote à main levée — une majorité — on se retrouve avec la mauvaise réponse. Pour trouver la vérité, il faut être capable de repérer le raisonnement correct, même s’il est isolé. C’est exactement le défi auquel font face les grands modèles linguistiques (LLM) lorsqu’ils doivent résoudre des problèmes complexes. Une méthode courante pour améliorer les performances des LLM consiste à leur demander de générer plusieurs solutions à un même problème, puis à choisir celle qui apparaît le plus souvent. Cette approche, appelée self-consistency ou vote majoritaire, fonctionne bien dans de nombreux cas. Mais elle échoue là où le problème est suffisamment difficile : quand la majorité des réponses erronées partagent une erreur de raisonnement commune, la solution correcte — même juste — peut être écartée simplement parce qu’elle est rare. C’est là qu’intervient AggLM, une nouvelle méthode de réinforcement learning développée par Meta, qui remet en question l’idée selon laquelle « la sagesse de la foule » suffit toujours. Contrairement aux approches traditionnelles, AggLM ne se contente pas de compter les réponses les plus fréquentes. Elle apprend à distinguer les raisonnements corrects, même s’ils sont peu nombreux, en évaluant la qualité de la logique derrière chaque réponse, pas seulement sa popularité. AggLM fonctionne en formant un modèle de « jugement » qui analyse non seulement les résultats, mais aussi les étapes du raisonnement. Il apprend à reconnaître les indices de validité logique, comme la cohérence interne, la rigueur des étapes ou la capacité à éviter des pièges classiques. Ensuite, il utilise cette capacité pour pondérer les réponses, privilégiant celles qui sont non seulement rares, mais aussi bien fondées. Ce changement de paradigme est fondamental. Il transforme la recherche de la bonne réponse d’un exercice de démocratie intellectuelle en un processus de jugement critique. Au lieu de suivre la majorité, le système apprend à reconnaître la qualité du raisonnement, même lorsqu’il est isolé. Les résultats sont prometteurs : sur des tâches complexes comme la résolution de problèmes mathématiques, les énigmes logiques ou les raisonnements scientifiques, AggLM dépasse significativement les méthodes traditionnelles basées sur le vote majoritaire. Il réussit à identifier les bonnes solutions même dans des scénarios où la majorité est trompeuse. En somme, AggLM ne se contente pas de suivre la foule. Il apprend à écouter le silence du génie — celui qui pense différemment, mais juste. C’est une avancée majeure vers des modèles capables non seulement de produire des réponses, mais de comprendre ce qu’est une bonne réponse.
