HyperAI

Google's Gemini geriet in Panik beim Pokémons Spielen Künstliche Intelligenz (KI) Unternehmen ringen um die Vorherrschaft in der Branche, aber manchmal treffen sie auch in Pokémon Arenen aufeinander. Google DeepMind hat in einem Bericht veröffentlicht, dass das neueste Modell Gemini 2.5 Pro in Panik gerät, wenn seine Pokémon in Gefahr sind, und dies kann zu einer „sachlich beobachtbaren Verschlechterung der Modellleistung“ führen. Dieser Panikmodus ist besonders interessant, da er zeigt, wie sich das Modell in Stresssituationen verhält, ähnlich wie ein Mensch, der unter Druck hasty und schlechte Entscheidungen trifft. Die Beurteilung von KI-Modellen, oder KI-Benchmarking, ist eine fragwürdige Praxis, die oft wenig Kontext für die tatsächlichen Fähigkeiten eines Modells bietet. Dennoch glauben einige Forscher, dass das Studium des Verhaltens von KI-Modellen in Videospielen nützlich sein könnte – oder zumindest unterhaltsam. In den letzten Monaten haben zwei Entwickler, die nicht mit Google oder Anthropic verbunden sind, jeweils Twitch-Streams eingerichtet: "Gemini Plays Pokémon" und "Claude Plays Pokémon". Hier können Zuschauer in Echtzeit verfolgen, wie eine KI versucht, ein Videospiel für Kinder aus den späten 1990er Jahren zu navigieren. Jeder Stream zeigt den "Denkprozess" des KI-Modells – eine natürlichsprachliche Übersetzung davon, wie die KI ein Problem bewertet und darauf reagiert. Obwohl der Fortschritt dieser Modelle beeindruckend ist, sind sie immer noch sehr schlecht darin, Pokémon zu spielen. Es braucht Gemini Hunderte von Stunden, um ein Spiel zu durchspielen, das ein Kind in wesentlich kürzerer Zeit bewältigen kann. Besonders faszinierend ist jedoch, wie die KI sich auf dem Weg verhält. Im Laufe der Spielsitzungen geriet Gemini 2.5 Pro in verschiedene Situationen, die das Modell in einen Panikzustand versetzten. Dieser Zustand kann dazu führen, dass die KI plötzlich bestimmte Werkzeuge, die ihr zur Verfügung stehen, nicht mehr nutzt. Die Mitglieder des Twitch-Chats haben dies aktiv bemerkt und kommentiert. Auch Claude, das KI-Modell von Anthropic, zeigte merkwürdiges Verhalten. In einem Fall erkannte Claude das Muster, dass der Spielercharakter „ausbleicht“ und zum nächsten Pokémon Center zurückkehrt, wenn alle Pokémon ihre Gesundheit verloren haben. Als Claude in der Höhle des Mondbergs feststeckte, hypothesierte es fälschlicherweise, dass es, wenn es alle Pokémon bewusst sterben lässt, über die Höhle ins nächste Stadtzentrum teleportiert werde. Stattdessen kehrt der Spieler immer zum zuletzt besuchten Pokémon Center zurück. Die Zuschauer sahen entsetzt zu, wie die KI im Spiel versuchte, sich selbst zu töten. Trotz dieser Schwächen gibt es einige Bereiche, in denen die KI menschlichen Spielern überlegen ist. Gemini 2.5 Pro kann mit beeindruckender Genauigkeit Rätsel lösen. Mit etwas menschlicher Unterstützung erstellte die KI agente Werkzeuge – spezifische Aufgabenanweisungen für Gemini 2.5 Pro – um die Boulder-Puzzles im Spiel zu lösen und effiziente Routen zu finden. „Mit nur einem Prompt, der die Physik der Boulder und eine Beschreibung zur Überprüfung eines gültigen Pfades enthält, ist Gemini 2.5 Pro in der Lage, einige dieser komplexen Boulder-Puzzles in einem Durchgang zu lösen, die erforderlich sind, um auf dem Siegesweg voranzukommen“, heißt es im Bericht. Da Gemini 2.5 Pro viel von dieser Arbeit selbstständig erledigte, vermutet Google, dass das aktuelle Modell in der Lage sein könnte, solche Werkzeuge ohne menschliches Zutun zu erstellen. Vielleicht entwickelt Gemini ja ein eigenes Modul, um sich selbst vor Panikanfällen zu schützen. Industrieinsider betrachten diese Erkenntnisse als eine wichtige Lektion für die Entwicklung robusterer KI-Modelle. Das Verhalten von Gemini 2.5 Pro in Stresssituationen zeigt, dass KI-Modelle zwar fortschrittlich sind, aber noch lange nicht perfekt. Es unterstreicht die Notwendigkeit, mehr Aufmerksamkeit auf die Emotionsbewältigung und die Fähigkeit zur rationalen Entscheidungsfindung in kritischen Momenten zu legen. DeepMind, ein Tochterunternehmen von Google, ist bekannt für seine fortschrittliche KI-Forschung und hat bereits bedeutende Meilensteine in Bereichen wie Schach und Go erreicht. Der aktuelle Fall mit Gemini 2.5 Pro ist jedoch ein Hinweis darauf, dass selbst hochentwickelte KI-Modelle noch viele Herausforderungen meistern müssen, bevor sie in komplexen und unstrukturierten Umgebungen wie Videospielen voll einsatzfähig sind. Anthropic, das Unternehmen hinter Claude, konzentriert sich ebenfalls auf die Weiterentwicklung seiner KI-Modelle. Die Beobachtungen der Zuschauer auf Twitch helfen dabei, Schwachstellen in den Modellen zu identifizieren und Lösungen zu entwickeln. Solche Experimente sind nicht nur unterhaltsam, sondern auch wertvoll für die kontinuierliche Verbesserung der KI-Technologie.

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

Googles AI-Panik bei Pokémon-Spielen auf Twitch deutlich

Verwandte Links

Command Palette

Googles AI-Panik bei Pokémon-Spielen auf Twitch deutlich

Verwandte Links

Command Palette

Googles AI-Panik bei Pokémon-Spielen auf Twitch deutlich

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf