Genie Envisioner: Eine einheitliche Weltgrundplattform für robotische Manipulation

Wir stellen Genie Envisioner (GE) vor, eine einheitliche Welt-Grundplattform für roboterbasierte Manipulation, die Policy-Lernen, Bewertung und Simulation in einem einzigen videogenerierenden Rahmen integriert. Im Kern basiert GE-Base auf einem großskaligen, an Anweisungen konditionierten Videodiffusionsmodell, das die räumlichen, zeitlichen und semantischen Dynamiken realweltbezogener roboterbasierter Interaktionen in einem strukturierten Latentraum abbildet. Auf dieser Grundlage ermöglicht GE-Act die Abbildung latenter Darstellungen auf ausführbare Aktionsverläufe mittels eines leichtgewichtigen Flow-Matching-Decoders und unterstützt somit eine präzise und generalisierbare Policy-Inferenz über eine Vielzahl unterschiedlicher Embodiments mit minimaler Aufsicht. Zur Unterstützung skalierbarer Bewertung und Training fungiert GE-Sim als an Aktionen konditionierter neuronaler Simulator, der hochqualitative Rollouts für die geschlossene Schleife bei der Policy-Entwicklung generiert. Die Plattform wird zudem durch EWMBench ergänzt, eine standardisierte Benchmark-Suite zur Messung der visuellen Fidelität, physikalischen Konsistenz und der Übereinstimmung zwischen Anweisung und Aktion. Zusammen bilden diese Komponenten Genie Envisioner zu einer skalierbaren und praktikablen Grundlage für anweisungsgetriebene, allgemeine körperliche Intelligenz. Der gesamte Quellcode, die Modelle und Benchmarks werden öffentlich zugänglich gemacht.