HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor einem Tag

Bewertung von Gemini-Roboterpolitiken in einem Veo-Welten-Simulator

Bewertung von Gemini-Roboterpolitiken in einem Veo-Welten-Simulator

Abstract

Generative Weltmodelle bergen ein großes Potenzial für die Simulation von Interaktionen mit visuomotorischen Policies in vielfältigen Umgebungen. Fortschrittliche Videomodelle ermöglichen die skalierbare und allgemeingültige Generierung realistischer Beobachtungen sowie Umweltinteraktionen. Allerdings wurde die Anwendung von Videomodellen in der Robotik bisher vor allem auf Evaluierungen innerhalb der Trainingsverteilung beschränkt, also auf Szenarien, die denen ähneln, mit denen die Policy trainiert oder das Basis-Videomodell feinabgestimmt wurde. In diesem Bericht zeigen wir, dass Videomodelle für das gesamte Spektrum von Evaluierungsanwendungen von Policies in der Robotik genutzt werden können: von der Beurteilung der nominalen Leistung über die Generalisierung außerhalb der Trainingsverteilung (OOD) bis hin zur Untersuchung physischer und semantischer Sicherheit. Wir stellen ein generatives Evaluierungssystem vor, das auf einem fortschrittlichen Videobasismodell (Veo) aufbaut. Das System ist darauf optimiert, Roboteraktionen zu konditionieren und Mehransichtskonsistenz zu gewährleisten, während es generative Bildbearbeitung und Mehransicht-Vervollständigung integriert, um realistische Variationen realer Szenen entlang mehrerer Generalisierungsachsen zu synthetisieren. Wir demonstrieren, dass das System die grundlegenden Fähigkeiten des Videomodells bewahrt, um genaue Simulationen von Szenen zu ermöglichen, die durch die Hinzufügung neuartiger Interaktionsobjekte, neuer visueller Hintergründe und neuer Ablenkungsobjekte bearbeitet wurden. Diese Genauigkeit erlaubt die präzise Vorhersage der relativen Leistung verschiedener Policies sowohl unter nominalen als auch unter OOD-Bedingungen, die Bestimmung des relativen Einflusses verschiedener Generalisierungsachsen auf die Policy-Leistung sowie die Durchführung von Red-Teaming-Tests zur Aufdeckung von Verhaltensweisen, die physische oder semantische Sicherheitsvorgaben verletzen. Diese Fähigkeiten validieren wir anhand von über 1600 realen Evaluierungen acht Gemini Robotics Policy-Checkpoints und fünf Aufgaben für einen zweihändigen Manipulator.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp