HyperAIHyperAI

Command Palette

Search for a command to run...

Back to Headlines

DeepMind: KI-Agent lernt komplexe Aufgaben im imaginären Minecraft

vor 6 Tagen

Google DeepMind hat mit Dreamer 4 einen bahnbrechenden KI-Agenten vorgestellt, der komplexe Aufgaben in einer skalierbaren Weltmodell-Umgebung lernt, ohne jemals in der realen Welt oder im Spiel selbst zu üben. Im Gegensatz zu früheren Ansätzen, die Millionen von Interaktionen benötigen, um grundlegende Fähigkeiten zu erlernen, nutzt Dreamer 4 ausschließlich offline aufgezeichnete Videos menschlicher Minecraft-Spieler – etwa hunderte Stunden Gameplay ohne ausführliche Aktionen – und baut daraus ein präzises internes Weltmodell auf. Dieses Modell ermöglicht es dem Agenten, durch Verstärkungslernen in imaginären Szenarien zu optimieren und schließlich erfolgreich Diamanten zu gewinnen, eine Aufgabe, die über 20.000 aufeinanderfolgende Maus- und Tastaturaktionen erfordert. Dabei bleibt der Agent völlig in der Simulation, ohne jemals im echten Spiel zu agieren – ein entscheidender Fortschritt für die Robotik, wo physische Experimente kostspielig oder schädlich sind. Dreamer 4 basiert auf einem großen Transformer-Modell, das durch ein neuartiges Trainingsschema namens „Shortcut Forcing“ effizienter und präziser wird. Es lernt, zukünftige Beobachtungen, Aktionen und Belohnungen vorherzusagen, wodurch es die physikalischen Gesetze von Minecraft – wie Blockbau, Werkzeugverwendung, Schmieden oder die Interaktion mit Türen und Booten – realistisch nachbildet. Die Modellgenerierung läuft in Echtzeit auf einer einzigen GPU, was die Interaktion mit dem „Traum-World“ für Menschen erleichtert. Im Vergleich zu anderen Ansätzen, wie den generativen Video-Modellen Veo oder Sora, die zwar realistische Szenen erzeugen, aber nicht interaktiv und zu langsam für Simulationen sind, übertrifft Dreamer 4 die Leistung erheblich. Ein zentrales Merkmal ist die Fähigkeit, aus minimalen Aktionen und reichlich visuellen Daten zu lernen. Selbst mit nur wenigen hundert Stunden mit Aktionen kann das Modell die Auswirkungen von Mausbewegungen und Tastatureingaben verallgemeinern und auf neue Situationen übertragen. Dies eröffnet die Möglichkeit, KI-Systeme auf Basis von Internetvideos zu trainieren – eine Ressource, die weitaus reichhaltiger ist als aufwändige Roboterdaten. Die Forscher sehen in Dreamer 4 einen Meilenstein für die Entwicklung intelligenter Roboter, die Haushalts- oder Fabrikaufgaben autonom erledigen können. Industrieexperten bewerten die Arbeit als wegweisend: „Dreamer 4 zeigt, dass KI nicht nur lernen kann, was passiert, sondern auch, was passieren könnte – eine entscheidende Voraussetzung für autonome Systeme im realen Leben“, sagt ein Experte für künstliche Intelligenz an der ETH Zürich. Die Integration von Sprachverstehen und Langzeitgedächtnis ist bereits in Planung, um kohärente, langfristige Interaktionen und menschliche Zusammenarbeit zu ermöglichen. Mit der Fähigkeit, aus allgemeinen Internetvideos Alltagswissen zu extrahieren, könnte Dreamer 4 künftig in vielfältigen, abstrakten Szenarien trainiert werden – ein Schritt hin zu kognitiv flexiblen, allgemeinen KI-Systemen.

Related Links

DeepMind: KI-Agent lernt komplexe Aufgaben im imaginären Minecraft | Neueste Nachrichten | HyperAI