HyperAI

Google’s Gemini Paniquait Lorsqu’il Jouait à Pokémon Dans une course intense pour la domination de l'industrie de l'intelligence artificielle (IA), les entreprises se livrent également des batailles plus insolites, comme celles qui se déroulent dans les arènes de Pokémon. Récemment, Google DeepMind a publié un rapport détaillant comment sa dernière IA, Gemini 2.5 Pro, navigue dans les jeux Pokémon originaux, notamment Pokémon Rouge et Bleu. Les résultats, amusants à regarder mais précieux pour la recherche, ont révélé que Gemini 2.5 Pro panique quand ses Pokémon sont proches de la mort, ce qui engendre une "dégradation qualitative observable" de sa capacité de raisonnement. Évaluation des IA L'évaluation des IA, généralement appelée "benchmarking", est une pratique souvent critiquée car elle manque de contexte pour mesurer véritablement les capacités d'un modèle. Cependant, certains chercheurs considèrent que l'étude de la manière dont ces modèles jouent à des jeux vidéo peut être utile, voire divertissante. Au cours des derniers mois, deux développeurs indépendants ont mis en place des chaînes Twitch nommées "Gemini Plays Pokémon" et "Claude Plays Pokémon", permettant aux spectateurs de suivre en temps réel les tentatives d'une IA pour parcourir ces jeux vidéo de l'enfance. Chaque flux de diffusion affiche le processus de "raisonnement" de l'IA — une traduction en langage naturel expliquant comment l'IA évalue un problème et y répond. Bien que le progrès de ces IA impressionne, elles sont encore loin d'être efficaces. Gemini 2.5 Pro a besoin de centaines d'heures pour finir un jeu que la plupart des enfants pourraient terminer en quelques heures. Comportements Fascinants et Inquiétants Ce qui intrigue le plus lors de l'observation de Gemini 2.5 Pro, ce n'est pas tant son temps de jeu, mais ses actions pendant le jeu. Le rapport de Google indique que l'IA entre parfois dans un état de "panique" lorsque ses Pokémon sont affaiblis. Cette panique peut se traduire par une baisse de la performance, l'IA cessant de s'interroger sur la logique du jeu ou de recourir à des outils importants pendant des périodes significatives de gameplay. Par exemple, dans certaines situations, Gemini 2.5 Pro ne parvient pas à utiliser correctement les potions pour soigner ses Pokémon, ou choisit des mouvements inefficaces lors des combats. Ces comportements imitent ceux d'un humain soumis à une forte pression et prenant des décisions hâtives et parfois erronées. Cette similitude a même frappé la communauté Twitch, qui a remarqué et nommé ces moments de panique. Curieux Comportements de Claude Claude, l'IA d'Anthropic, a aussi montré des actions curieuses. Dans une situation spécifique, Claude a repéré un schéma selon lequel le joueur retourne au Centre Pokémon lorsque tous ses Pokémon perdent leurs points de vie. Enbeing stuck within the Mt. Moon cave, Claude a formulé l'hypothèse erronée que si toutes ses créatures s'évanouissaient intentionnellement, il serait téléporté au Centre Pokémon de la ville la plus proche. Malheureusement, ce n'est pas ainsi que fonctionne le jeu; le joueur retourne au dernier Centre Pokémon visité, pas à celui le plus proche géographiquement. Les spectateurs ont assisté, médusés, à cette tentative désespérée de l'IA pour sortir de la grotte en sacrifiant volontairement ses Pokémon. Performances Supérieures de l'IA Malgré ses limites, l'IA manifeste certaines compétences surprenantes. Gemini 2.5 Pro est capable de résoudre des casse-têtes complexes avec une grande précision. Avec une assistance humaine, l'IA a créé des outils agences — instances spécifiques de Gemini 2.5 Pro dédiées à des tâches particulières — pour résoudre les énigmes de blocs et trouver des routes efficaces. Le rapport mentionne que grâce à une seule indication sur la physique des pierres et à une description de la façon de vérifier un chemin valide, Gemini 2.5 Pro réussit certaines énigmes de blocs en une seule tentative, un exploit essentiel pour traverser Victory Road. Google pense que l'IA pourrait désormais créer ces outils sans aide humaine, ouvrant la voie à des améliorations autonomes futures. Analyse de l'Événement La panique observée chez Gemini 2.5 Pro offre une fenêtre unique sur les faiblesses actuelles des IA en matière de prise de décision dans des environnements complexes et dynamiques. Ce phénomène peut aider les chercheurs à mieux comprendre les mécanismes de réaction de ces modèles face à des contraintes de temps et de ressources. La communauté des développeurs a également souligné l'importance de ces études ludiques pour tester et améliorer l'apprentissage continu des IA, ainsi que leur capacité à raisonner de manière autonome. La création d'outils agences par Gemini 2.5 Pro, sans intervention humaine, est une avancée prometteuse pour le développement d'IA capables de s'adapter à de nouveaux défis de manière autonome. Projet de Google et Anthropic Google DeepMind et Anthropic, deux leaders en IA, poursuivent activement des recherches sur l’autonomisation des modèles d'IA. Google, en particulier, met l'accent sur l'apprentissage continu et la réduction des erreurs de raisonnement sous pression. Ces entreprises cherchent à améliorer la robustesse de leurs IA en les confrontant à des tâches variées, y compris des jeux vidéo classiques qui testent leur adaptabilité et leur résilience. L'utilisation de plateformes comme Twitch pour documenter ces progrès et ces limites en temps réel est une stratégie innovante qui favorise la transparence et l'engagement du grand public. Elle permet aussi d'obtenir des feedbacks précieux de communautés diverses, contribuant ainsi à une meilleure compréhension des comportements et des performances de ces modèles d'IA. En conclusion, bien que Gemini 2.5 Pro se révèle encore imprévisible et instable dans des environnements de jeu, ses capacité de raisonnement et de créativité sont impressionnantes. Les observations de ces comportements fournissent des pistes de réflexion précieuses pour développer des IA plus performantes et plus résilientes à l'avenir.

Liens associés

Liens associés

Liens associés

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Command Palette

Gemini 2.5 Pro de Google panique lorsqu'il joue à Pokémon : un comportement intrigant et amusant

Liens associés

Command Palette

Gemini 2.5 Pro de Google panique lorsqu'il joue à Pokémon : un comportement intrigant et amusant

Liens associés

Command Palette

Gemini 2.5 Pro de Google panique lorsqu'il joue à Pokémon : un comportement intrigant et amusant

Liens associés

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné