HyperAIHyperAI
Back to Headlines

OpenAI dévoile la révolution des agents intelligents : comment une équipe secrète a transformé l’IA en outil de raisonnement capable de résoudre des problèmes mathématiques olympiques

il y a 18 jours

Peu après son arrivée chez OpenAI en 2022, Hunter Lightman a assisté au lancement de ChatGPT, l’un des produits les plus rapides à connaître une croissance massive. Pendant ce temps, il travaillait discrètement avec une équipe spécialisée dans l’entraînement des modèles d’OpenAI à résoudre des problèmes de mathématiques de niveau olympiade. Cette équipe, baptisée MathGen, est aujourd’hui reconnue comme essentielle au développement des modèles de raisonnement d’OpenAI, la technologie fondamentale derrière les agents intelligents capables d’effectuer des tâches sur ordinateur comme un humain. « Nous voulions améliorer le raisonnement mathématique des modèles, qui étaient alors très médiocres », explique Lightman à TechCrunch, rappelant les débuts de MathGen. Bien que les systèmes d’OpenAI ne soient pas parfaits aujourd’hui — ils continuent de faire des hallucinations et peinent avec des tâches complexes — leurs modèles les plus récents ont fait des progrès significatifs en raisonnement mathématique. L’un d’eux a récemment remporté une médaille d’or aux Olympiades internationales de mathématiques, un concours réservé aux meilleurs lycéens du monde. OpenAI est convaincu que ces capacités s’étendront à d’autres domaines, et finalement alimenteront les agents généraux qu’elle a toujours visés. ChatGPT est né d’un accident — une démonstration de recherche discrète devenue un succès grand public — mais les agents d’OpenAI sont le fruit d’un effort délibéré et prolongé. « Bientôt, vous demanderez simplement à l’ordinateur ce que vous voulez, et il fera toutes les tâches à votre place », affirmait en 2023 Sam Altman lors de la première conférence développeurs d’OpenAI. Ces systèmes, appelés « agents », promettent des bénéfices considérables. En automne 2024, OpenAI a surpris le monde avec la sortie de son premier modèle de raisonnement, o1. Moins d’un an plus tard, les 21 chercheurs fondateurs de ce projet sont les talents les plus recherchés de la Silicon Valley. Mark Zuckerberg a recruté cinq d’entre eux pour sa nouvelle unité dédiée à l’« intelligence supérieure » chez Meta, avec des packages de rémunération dépassant 100 millions de dollars. Shengjia Zhao a même été nommé scientifique en chef de Meta Superintelligence Labs. Cette avancée repose sur l’apprentissage par renforcement (RL), une méthode d’entraînement qui fournit des retours aux modèles sur la justesse de leurs décisions dans des environnements simulés. Si le RL existe depuis des décennies — comme avec AlphaGo en 2016 — il a fallu des années à OpenAI pour l’adapter à des tâches complexes. En 2023, une percée baptisée initialement « Q* », puis « Strawberry », a combiné les grands modèles linguistiques (LLM), le RL et une technique appelée « calcul au moment du test », qui donne aux modèles plus de temps et de puissance de calcul pour planifier et vérifier leurs raisonnements. Ce système a permis de développer la méthode « chaîne de pensée » (chain-of-thought), qui a considérablement amélioré les performances sur des problèmes mathématiques inédits. « J’ai vu le modèle commencer à raisonner, il repérait ses erreurs, revenait en arrière, semblait frustré. C’était comme lire les pensées d’une personne », raconte El Kishky. Bien que ces techniques soient individuellement connues, leur combinaison originale par OpenAI a permis de créer Strawberry, qui a mené directement à o1. OpenAI a ensuite identifié deux axes clés pour améliorer ses modèles : augmenter la puissance de calcul pendant l’entraînement postérieur, et accorder plus de temps et de ressources au modèle lorsqu’il répond à une question. Cette stratégie de « mise à l’échelle du raisonnement » a été portée par une équipe d’agents dirigée par Daniel Selsam, intégrée plus tard dans le projet o1, sous la direction d’Ilya Sutskever, Mark Chen et Jakub Pachocki. Le succès de o1 a été rendu possible par une culture de recherche « bottom-up » chez OpenAI, où les équipes doivent prouver leur potentiel pour obtenir des ressources. « Quand nous avons montré les preuves, la direction a dit : “Cela a du sens, continuons” », explique Lightman. L’objectif d’OpenAI de développer une IA générale (AGI) a permis de prioriser o1, contrairement à d’autres laboratoires plus orientés produits. Aujourd’hui, les chercheurs s’interrogent sur ce que signifie « raisonner » pour une IA. Pour El Kishky, c’est une question de gestion efficace des ressources informatiques. Lightman préfère se concentrer sur les résultats : « Si le modèle fait des choses difficiles, alors il utilise la méthode nécessaire — peu importe si c’est humain ou non. On peut appeler cela du raisonnement, car cela ressemble à des traces de raisonnement. » Les critiques existent, mais la communauté est globalement d’accord sur l’utilité des modèles. Nathan Lambert d’AI2 compare les modèles de raisonnement à l’avion : inspirés de la nature, mais fonctionnant différemment. « Ce n’est pas moins utile », affirme-t-il. Les agents actuels fonctionnent bien pour des tâches bien définies, comme le codage (ex. : Codex, Cursor). Mais ils échouent souvent sur des tâches subjectives, comme faire des achats en ligne ou trouver un parking à long terme. « C’est un problème de données », explique Lightman. OpenAI explore désormais des techniques de RL généralisées, comme celles utilisées pour son modèle olympien, qui fait coopérer plusieurs agents pour explorer différentes pistes. Ces méthodes, adoptées par Google et xAI, pourraient améliorer les futures versions de GPT-5. OpenAI vise à rendre ses agents plus intuitifs : capables de comprendre les intentions des utilisateurs sans configuration manuelle, d’activer les bonnes outils au bon moment. L’objectif final ? Un ChatGPT qui peut tout faire sur Internet, comme un assistant personnel ultra-puissant. Mais la concurrence s’intensifie : Google, Anthropic, xAI et Meta sont désormais des rivaux sérieux. La question n’est plus seulement si OpenAI peut réaliser son rêve, mais si elle le fera avant les autres.

Related Links

OpenAI dévoile la révolution des agents intelligents : comment une équipe secrète a transformé l’IA en outil de raisonnement capable de résoudre des problèmes mathématiques olympiques | Gros titres | HyperAI