DeepMind et OpenAI atteignent le niveau des meilleurs étudiants en résolvant des problèmes de mathématiques Olympiques
Des modèles développés par DeepMind et OpenAI ont réussi à résoudre des problèmes de mathématiques au niveau des meilleurs étudiants du monde. Le 21 juillet, DeepMind a annoncé que son logiciel avait résolu des énigmes mathématiques avec une précision comparable à celle des élèves les plus doués, en obtenant une note correspondant à une médaille d'or lors d'une épreuve de l'Olympiade internationale de mathématiques (IMO). À première vue, cette performance n'était qu'une amélioration modeste par rapport à celle de l'année précédente, où le système de DeepMind avait obtenu des résultats dans la fourchette supérieure des médailles d'argent. Cette année, il a été évalué dans la fourchette inférieure des notes attribuées aux médaillés d'or humains. Selon Thang Luong, un scientifique informatique chez DeepMind à Mountain View, en Californie, les résultats de cette année cachent un « grand changement de paradigme ». Les performances précédentes avaient été obtenues grâce à deux outils d'intelligence artificielle spécifiquement conçus pour effectuer des étapes logiques rigoureuses dans les preuves mathématiques, appelés AlphaGeometry et AlphaProof. Ce processus nécessitait l'intervention d'experts humains pour traduire les énoncés des problèmes en un langage proche du code informatique, puis pour traduire à nouveau les solutions fournies par l'IA en anglais. « Cette année, tout est en langage naturel, du début à la fin », explique Luong. Le groupe a utilisé un modèle de langage à grande échelle (LLM) appelé DeepThink, basé sur le système Gemini, mais avec des améliorations spécifiques pour mieux et plus rapidement produire des arguments mathématiques, comme la capacité à gérer plusieurs chaînes de raisonnement en parallèle. « Pendant longtemps, je ne croyais pas qu'on puisse aller aussi loin avec les LLM », ajoute-t-il. DeepThink a obtenu 35 points sur 42 pour les 6 problèmes proposés aux participants de l'IMO cette année. Conformément à un accord avec les organisateurs, les solutions du système ont été notées par les mêmes juges que celles des candidats humains. De son côté, OpenAI, société basée à San Francisco en Californie, qui a créé ChatGPT, a également fait résoudre les mêmes problèmes de l'IMO par son modèle de langage à grande échelle, avec un score correspondant à une médaille d'or. Cependant, les solutions ont été évaluées indépendamment. Depuis des années, les chercheurs en intelligence artificielle se sont divisés entre deux approches. Jusqu'en 2012, la méthode dominante consistait à coder manuellement les règles du raisonnement logique dans les machines. Depuis, les réseaux de neurones — qui s'entraînent automatiquement en apprenant à partir de grands ensembles de données — ont connu plusieurs avancées majeures, et des outils comme ChatGPT d'OpenAI sont désormais largement utilisés. Gary Marcus, neuroscientifique à l'Université de New York (NYU), a qualifié les performances de DeepMind et OpenAI de « très impressionnantes ». Marcus défend l'approche de « codage logique manuel » — aussi appelée IA neurosymbolique — et critique souvent ce qu'il considère comme de la surestimation autour des LLM. Cependant, dans un article sur Substack avec le chercheur en informatique Ernest Davis de l'Université de New York, il a souligné que « devenir capable de résoudre des problèmes de mathématiques au niveau des 67 meilleurs élèves du monde est un signe d'une excellente capacité à résoudre des problèmes mathématiques ». Il reste à voir si la supériorité des LLM sur les problèmes de l'IMO est durable, ou si l'IA neurosymbolique pourra retrouver une position dominante. « Pour l'instant, les deux approches continuent de se développer », affirme Luong, qui travaille sur les deux méthodes. « Elles pourraient finalement se rejoindre. »