Google lance Gemini 2.5, un modèle d'IA qui utilise le navigateur comme un humain
Google présente une nouvelle version de son modèle d’intelligence artificielle, le Gemini 2.5 Computer Use, conçu pour interagir avec les interfaces web comme un utilisateur humain. Ce modèle, basé sur les capacités avancées de vision et de raisonnement du Gemini 2.5 Pro, permet à des agents IA de naviguer, cliquer, saisir du texte, faire défiler des pages ou déplacer des éléments dans un navigateur — sans nécessiter d’API ou d’accès direct au système. Il s’agit d’une étape clé vers des agents autonomes capables d’exécuter des tâches complexes sur des sites web non conçus pour l’automatisation, comme remplir des formulaires ou effectuer des achats en ligne. Disponible pour les développeurs via Google AI Studio et Vertex AI, ce modèle est également accessible en démonstration sur Browserbase, où il effectue des tâches telles que jouer à 2048 ou explorer les débats les plus populaires sur Hacker News. Les démonstrations, bien que accélérées trois fois, montrent une performance supérieure aux alternatives sur plusieurs benchmarks web et mobiles, avec une latence réduite. Contrairement à des outils comme le ChatGPT Agent d’OpenAI ou la fonction « computer use » de Claude d’Anthropic, le modèle de Google ne contrôle pas l’ensemble de l’environnement informatique, mais se limite à une interface navigateur. Il ne peut donc pas encore interagir avec le système d’exploitation ou les applications desktop. Le modèle fonctionne en boucle, recevant en entrée une requête utilisateur, une capture d’écran de l’interface et un historique des actions précédentes. Il utilise un outil dédié appelé computer_use dans l’API Gemini pour exécuter jusqu’à 13 actions prédéfinies, comme ouvrir un onglet, taper du texte, glisser-déposer ou cliquer sur des éléments. Les développeurs peuvent aussi définir des actions personnalisées ou exclure certaines fonctionnalités à risque. La sécurité est une priorité centrale. Google a intégré des mécanismes de sécurité directement dans le modèle pour contrer les risques liés à l’usage malveillant, aux comportements imprévus ou aux tentatives de phishing et d’ingénierie sociale via le web. Des contrôles supplémentaires permettent aux développeurs de bloquer automatiquement des actions potentiellement dangereuses, comme la contournement de CAPTCHA, la manipulation de systèmes critiques ou l’accès à des dispositifs médicaux. Des recommandations détaillées sont disponibles dans la documentation pour aider les développeurs à concevoir des systèmes sûrs. Cette annonce intervient juste après le lancement par OpenAI de nouvelles fonctionnalités pour ChatGPT lors de son Dev Day, renforçant la course au développement d’agents IA autonomes. Google avait déjà intégré des fonctionnalités similaires dans son mode AI et dans Project Mariner, un prototype de recherche. Avec le Gemini 2.5 Computer Use, Google s’impose comme un acteur majeur dans la création d’agents capables d’agir dans des environnements numériques réels, tout en plaçant la sécurité au cœur de son développement. Ce modèle ouvre la voie à une nouvelle génération d’outils automatisés, accessibles aux développeurs et destinés à simplifier des tâches quotidiennes sur le web.