HyperAIHyperAI

Command Palette

Search for a command to run...

vor 10 Tagen

PAN: Ein Weltmodell für allgemeine, interaktive und langfristige Welt-Simulation

PAN: Ein Weltmodell für allgemeine, interaktive und langfristige Welt-Simulation

Abstract

Ein Weltmodell ermöglicht einem intelligenten Agenten, die Entwicklung der Welt im Hinblick auf seine eigenen Handlungen vorherzusagen, zu imaginieren und zu reflektieren, um entsprechend zu planen und Strategien zu entwickeln. Während aktuelle Videogenerationsmodelle realistische visuelle Sequenzen erzeugen, operieren sie typischerweise im Prompt-zu-Vollvideo-Modus ohne kausale Kontrolle, Interaktivität oder langfristige Konsistenz – Merkmale, die für zielgerichtete Reasoning-Prozesse unerlässlich sind. Im Gegensatz dazu konzentrieren sich bestehende Ansätze zur Weltmodellierung häufig auf eingeschränkte Domänen (z. B. physikalische Systeme, Spiele oder 3D-Szenen-Dynamiken), weisen jedoch begrenzte Tiefe und Kontrollierbarkeit auf und zeigen Schwierigkeiten bei der Generalisierung über unterschiedliche Umgebungen und Interaktionsformate hinweg. In dieser Arbeit stellen wir PAN vor – ein allgemeines, interaktives und langfristig ausgerichtetes Weltmodell, das zukünftige Weltzustände durch hochwertige Videosimulation vorhersagt, bedingt durch historische Daten und natürlichsprachliche Aktionen. PAN nutzt die Generative Latent Prediction (GLP)-Architektur, die einen autoregressiven latenten Dynamik-Backbone auf Basis eines großen Sprachmodells (LLM) kombiniert, der die Simulation durch umfangreiches textbasiertes Wissen fundiert und die Bedingung auf sprachlich spezifizierte Aktionen ermöglicht, mit einem Videodiffusions-Decoder, der perceptuell detaillierte und zeitlich konsistente visuelle Beobachtungen rekonstruiert. Dadurch wird eine Vereinigung zwischen latenter Raum-Reasoning (Imagination) und realisierbaren Welt-Dynamiken (Realität) erreicht. Auf großen, diversifizierten Datensätzen aus Video-Aktions-Paaren trainiert, unterstützt PAN offene Domänen, aktionsbedingte Simulationen mit kohärenten, langfristigen Dynamiken. Umfangreiche Experimente zeigen, dass PAN im Vergleich zu anderen Videogeneratoren und Weltmodellen herausragende Leistung bei aktionsbedingter Welt-Simulation, langfristiger Vorhersage und simulativem Reasoning erzielt und somit einen Schritt hin zu allgemeinen Weltmodellen darstellt, die prädiktive Simulationen zukünftiger Weltzustände für kognitives Denken und Handeln ermöglichen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PAN: Ein Weltmodell für allgemeine, interaktive und langfristige Welt-Simulation | Forschungsarbeiten | HyperAI