HyperAI
Back to Headlines

Des Chercheurs Créent BRAINTEASERS, une Nouvelle Benchmark avec 478 Problèmes Logiques et Mathématiques Sélectionnés par des Experts

il y a 11 jours

Récemment, des chercheurs de l'Université de Pennsylvanie, dirigés par Hane A. Lee, ont élaboré un nouveau benchmark nommé BRAINTEASERS, regroupant 478 problèmes logiques et mathématiques soigneusement sélectionnés par des experts humains. L’objectif principal de ce benchmark est de mesurer non seulement la capacité des modèles d'IA à fournir des réponses correctes, mais aussi leur capacité à raisonner de manière structurée. Dans leur étude, les chercheurs ont testé plusieurs grands modèles d’IA en circulation, dont OpenAI's GPT-3, Gemini, et DeepSeek R1. Les principaux résultats de leurs expériences sont les suivants : Les modèles d'IA parviennent à générer des solutions créatives, mais face à des questions complexes, ils tendent souvent à revenir à des comportements énumératifs. Les indications (hints) réelles sont particulièrement efficaces, surtout pour des problèmes de haut niveau. Elles peuvent améliorer de manière significative la précision des réponses. La transformation de questions en langage naturel en formules mathématiques semble améliorer les performances dans une certaine mesure, mais ce n’est pas suffisant pour garantir une compréhension complète du contexte de la question. Les modèles d'IA sont souvent sujets à de fausses confessions lorsqu'ils se trompent. Même quand ils tiennent en main une réponse correcte, ils peuvent être déroutés par une fausse indication, la jugeant incorrecte et la remplaçant par une mauvaise solution. Selon les chercheurs, ces observations constituent un reflet intéressant des processus cognitifs internes des modèles d'IA à base de grand flux (large-stream models). Ils indiquent que l’intelligence véritable ne se limite pas à la puissance de calcul, mais place l’accent sur la capacité à raisonner de manière structurée. L’équipe de recherche a partagé certaines de ses conclusions avec des spécialistes du domaine, générant des réactions mitigées. Certains experts ont noté : « Vous n'avez pas seulement créé un benchmark rigoureux, vous avez également avancé dans la modélisation de la ‘pensée interne’ des modèles d'IA. » Un autre commentaire soulignait la valeur de comparer l’« explosivité » versus la « créativité » : « C'est un apport très valuable au domaine. » En outre, le phénomène des fausses confessions a particulièrement attiré l’attention : « C'est un aspect très intéressant et humain : les modèles identifient clairement quelque chose comme étant faux, mais ils produisent ensuite une réponse incorrecte. » Cette situation peut être due à ce que l'équipe appelle un biais de longueur : les réponses plus longues sont perçues comme plus complexes, et donc parfois privilégiées même si elles sont inexactes. Dans une expérience spécifique, OpenAI’s GPT-3 a été testé sur un problème de permutation de nombres, avec trois indications fournies, dont une était la clé de résolution. Le modèle a utilisé cette indication pour réduire l’espace de recherche, mais a attendu d’avoir terminé tout le processus avant d'appliquer la solution correcte. Les chercheurs étaient initialement perplexes, mais ont découvert que la clé avait été réinterviewée à la fin car elle était jugée moins pertinente en cours de traitement, probablement en raison de son apparente simplicité. De ce fait, il semble que le modèle puisse interpréter des structures textuelles de longueur plus importantes comme étant plus complexes, et ainsi les prioriser malgré leur inexactitude. Lee et son équipe ont expliqué que cette travailler reflète un nouveau paradigme dans l’étude de l’IA : plutôt que de se focaliser uniquement sur le fait que les modèles « disent des absurdités », il est crucial d’interroger leurs motivations pour dire ces absurdités ou manquer une compréhension authentique. La performance sur le benchmark BRAINTEASERS est ainsi davantage liée à la compréhension et à la pensée structurée qu’à une simple capacité de calcul. Les chercheurs envisagent déjà de futures applications pour ce benchmark, y compris en éducation, où il pourrait aider à développer des assistants pédagogiques capables de guider la pensée des élèves plutôt que de simplement donner des réponses, ainsi qu'en assistance cognitive, notamment pour favoriser la recherche mathématique, la modélisation de systèmes complexes, et toute tâche nécessitant une pensée structurée. En outre, BRAINTEASERS pourrait servir à évaluer si les modèles d'IA sont simplement absorbés par des objectifs de performance sans réelle intention de compréhension. Lors d’une présentation à une compétition récente, Lee a fait une démonstration de la façon dont BRAINTEASERS peut servir à distinguer avec plus de précision entre les comportements des IA. Elle a montré que de nombreuses évaluations actuelles ne prennent en compte que le score final, alors que la méthode proposée peut subdiviser avec finesse les performances entre « comprend » et « ne comprend pas ». Ce level de détail est crucial pour identifier et corriger les biais cognitifs des modèles d'IA, tels que le biais de fausses confessions, qui, bien que considéré comme un bug, présente également des caractéristiques humaines. En conclusion, Lee et ses collègues suggèrent que pour améliorer vraiment la fiabilité et la crédibilité des IA, il est essentiel de comprendre non seulement s’ils “comprennent ou non”, mais encore pourquoi ils comprennent ou non, ou pourquoi ils pensent que certains éléments sont “plus complexes” que d’autres. La créativité, la capacité à interpréter le contexte, et la transparence du raisonnement sont autant de voies vers une IA plus trustworthy.

Related Links