HyperAIHyperAI

Command Palette

Search for a command to run...

Google DeepMind präsentiert SIMA 2: KI-Agent mit Gemini-Intelligenz lernt spielend in virtuellen Welten

Google DeepMind hat am Donnerstag eine Forschungsvorabversion von SIMA 2 vorgestellt, einer neuen Generation seines allgemeinen KI-Agenten, der die Sprach- und Schlussfolgerungsfähigkeiten von Google’s Gemini-Modell integriert, um nicht nur Anweisungen zu befolgen, sondern die Umgebung zu verstehen und darin zu interagieren. SIMA 2 baut auf dem ersten Modell SIMA aus März 2024 auf, das bereits in mehreren 3D-Spielen wie No Man’s Sky und Goat Simulator 3 durch menschenähnliches Verhalten auffiel, jedoch nur eine Erfolgsrate von 31 % bei komplexen Aufgaben erreichte – deutlich unter der menschlichen Leistung von 71 %. Joe Marino, Senior Research Scientist bei DeepMind, betont, dass SIMA 2 einen „Sprung vorwärts“ darstellt: Es ist generalisierter, kann komplexe Aufgaben in bisher unbekannten Umgebungen bewältigen und sogar aus eigenen Erfahrungen lernen – ein entscheidender Schritt hin zu allgemeinen Robotern und künstlicher allgemeiner Intelligenz (AGI). SIMA 2 wird durch das Gemini 2.5 Flash-Lite-Modell angetrieben. Durch die Integration von Gemini kann der Agent nicht nur Anweisungen verstehen, sondern auch seine Gedankenprozesse erklären. In einer Demonstration in No Man’s Sky beschrieb SIMA 2 seine Umgebung und erkannte einen Notrufsender, um darauf zu reagieren. Bei der Aufgabe, „das Haus zu finden, das wie eine reife Tomate aussieht“, erklärte es: „Reife Tomaten sind rot, also gehe ich zum roten Haus“ – ein klares Beispiel für die neue Fähigkeit zur expliziten, sinnvollen Schlussfolgerung. Ein weiterer Fortschritt ist die Fähigkeit, auch über Emojis zu interagieren. Ein simples „🪓🌳“ wird als „Baum fällen“ verstanden. Die Agenten können zudem mit photorealistischen Welten umgehen, die von DeepMinds Weltmodell Genie generiert werden, und Objekte wie Bänke, Bäume oder Schmetterlinge erkennen und ansprechen. Wichtig ist auch die Selbstverbesserungsfähigkeit. Im Gegensatz zu SIMA 1, das ausschließlich auf menschlichen Spielvideos trainiert wurde, nutzt SIMA 2 nun eine Kombination aus menschlichen Daten und künstlich generierten Aufgaben. Ein weiteres Gemini-Modell erzeugt neue Ziele, ein Belohnungsmodell bewertet die Versuche – und der Agent lernt aus seinen Fehlern, ähnlich wie ein Mensch durch Versuch und Irrtum. Diese selbstgenerierten Erfahrungen ermöglichen ein kontinuierliches Lernen ohne ständige menschliche Eingriffe. DeepMind sieht SIMA 2 als wichtigen Schritt hin zu allgemeinen Robotern. Der Agent verfügt über eine „kognitive Ebene“ – er versteht Ziele, plant und denkt – während die physische Ausführung (z. B. Bewegung von Gelenken) von separaten Systemen übernommen wird. Dieser getrennte Ansatz, wie er auch bei NVIDIA’s Isaac-Plattform verwendet wird, könnte die Übertragung von Fähigkeiten aus der virtuellen in die reale Welt erleichtern. Trotz der Fortschritte gibt es noch Herausforderungen: Die Fähigkeit zu langfristigen, mehrstufigen Aufgaben bleibt begrenzt, da das Modell nur kurze Erinnerungen speichert. Zudem ist die Steuerung über Tastatur und Maus noch weit hinter menschlichen Fähigkeiten zurück. Experten wie Julian Togelius von der New York University warnen vor der „Sim-to-Real-Lücke“ – die Komplexität realer physikalischer Interaktionen ist viel größer als in virtuellen Welten. Dennoch bleibt die Forschung von DeepMind ein bedeutender Meilenstein: Durch die Kombination von KI-Reasoning, virtueller Umgebung und selbstgesteuertem Lernen wird ein neuer Weg für die Entwicklung allgemeiner, körperhafter KI gezeigt. SIMA 2 wird derzeit als begrenzter Forschungspreview an ausgewählte Akademiker und Entwickler freigegeben. Die langfristige Vision: ein Agent, der nicht nur in Spielen, sondern auch in der realen Welt intelligente, selbstständige Aufgaben erledigen kann.

Verwandte Links

Google DeepMind präsentiert SIMA 2: KI-Agent mit Gemini-Intelligenz lernt spielend in virtuellen Welten | Aktuelle Beiträge | HyperAI