Google lance Gemini Deep Think, un nouvel outil d'IA pour tester plusieurs idées en parallèle.
Google DeepMind dévoile Gemini 2.5 Deep Think, son modèle d’intelligence artificielle le plus avancé à ce jour, conçu pour résoudre des problèmes complexes en explorant simultanément plusieurs idées. Disponible à partir de vendredi pour les abonnés au forfait Ultra de Google à 250 dollars par mois, ce modèle représente une avancée majeure dans le domaine du raisonnement par IA. Présenté pour la première fois en mai lors de Google I/O 2025, Gemini 2.5 Deep Think est la première version publique d’un système multi-agents, où plusieurs agents d’IA travaillent en parallèle pour traiter une question, améliorant ainsi la qualité des réponses, même si cela consomme davantage de ressources informatiques. Google a utilisé une variante de ce modèle pour remporter une médaille d’or au Concours international de mathématiques (IMO) 2025. Une version spécifique, conçue pour raisonner sur des problèmes mathématiques complexes, sera partagée avec un groupe restreint de mathématiciens et de chercheurs. Ce modèle, qui peut prendre des heures pour raisonner au lieu de secondes, vise à stimuler la recherche académique et à recueillir des retours pour améliorer les systèmes multi-agents dans des contextes scientifiques. Gemini 2.5 Deep Think marque une amélioration significative par rapport à la version présentée en mai. Google affirme avoir mis au point des techniques innovantes d’apprentissage par renforcement pour optimiser l’usage des chemins de raisonnement prolongés. Cette capacité à « penser » plus longtemps et en parallèle permet au modèle de mieux gérer des tâches exigeant de la créativité, de la planification stratégique ou des améliorations itératives. Dans les tests, le modèle obtient des performances record sur des benchmarks exigeants. Sur Humanity’s Last Exam (HLE), qui évalue la capacité des IA à répondre à des milliers de questions variées dans des domaines comme les mathématiques, les sciences et les humanités, Gemini 2.5 Deep Think atteint 34,8 % sans outils, surpassant Grok 4 (25,4 %) et o3 d’OpenAI (20,3 %). Sur LiveCodeBench6, un test de codage compétitif, il réalise 87,6 %, contre 79 % pour Grok 4 et 72 % pour o3. Le modèle fonctionne automatiquement avec des outils comme l’exécution de code ou la recherche Google, et peut produire des réponses beaucoup plus longues et détaillées que les modèles classiques. Dans des tests de développement web, il génère des résultats plus complets et esthétiquement supérieurs. Google espère qu’il pourra accélérer la découverte scientifique et aider les chercheurs. L’approche multi-agents gagne en popularité chez les principaux acteurs du secteur : xAI a lancé Grok 4 Heavy, OpenAI a utilisé un système similaire pour son modèle olympique, et Anthropic a déployé son agent de recherche basé sur le même principe. Toutefois, ces systèmes sont très coûteux à exploiter, ce qui pousse les entreprises à les réservés aux abonnements premium, comme le fait désormais Google. Dans les semaines à venir, Google partagera Gemini 2.5 Deep Think avec un groupe sélectionné de développeurs via l’API Gemini, afin d’évaluer son potentiel dans les environnements professionnels. En prolongeant le temps de raisonnement et en exploitant la pensée parallèle, Deep Think s’inscrit comme une étape clé vers des IA capables de résoudre des problèmes complexes avec une intelligence plus humaine.