HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet

Abstract

Die Ausführung sprachbedingter Aufgaben in dynamischen visuellen Umgebungen bleibt eine zentrale Herausforderung im Bereich der embodied AI. Bestehende Vision-Language-Action-(VLA)-Modelle basieren überwiegend auf reaktiven Zustands-zu-Aktion-Zuordnungen, was häufig kurzfristiges Verhalten und eine geringe Robustheit in dynamischen Szenarien zur Folge hat. In diesem Artikel stellen wir F1 vor, einen vortrainierten VLA-Framework, der die Generierung visueller Vorwegnahme in den Entscheidungsprozess integriert. F1 nutzt eine Mixture-of-Transformer-Architektur mit spezialisierten Modulen für Wahrnehmung, Vorwegnahmegeneration und Steuerung, wodurch ein Brückenschlag zwischen Verständnis, Generierung und Handlung ermöglicht wird. Kernstück von F1 ist eine Next-Scale-Vorhersagemechanismus, der zielbedingte visuelle Vorwegnahmen als explizite Planungsziele synthetisiert. Durch die Vorhersage plausibler zukünftiger visueller Zustände reformuliert F1 die Aktionserzeugung als inverse Dynamik-Aufgabe, die durch Vorwegnahme geleitet wird, wodurch Aktionen ermöglicht werden, die implizit visuelle Ziele erreichen. Um F1 robuste und verallgemeinerungsfähige Fähigkeiten zu verleihen, schlagen wir ein dreistufiges Trainingsrezept auf einem umfangreichen Datensatz vor, der über 330.000 Trajektorien über 136 verschiedene Aufgaben umfasst. Dieses Trainingsverfahren fördert modulare Schlussfolgerungen und verleiht dem Modell übertragbare visuelle Vorwegnahmefähigkeiten, die für komplexe und dynamische Umgebungen entscheidend sind. Umfassende Evaluierungen an realen Aufgaben und Simulationsbenchmarks zeigen, dass F1 bestehende Ansätze konsistent übertrifft und erhebliche Verbesserungen sowohl in Bezug auf die Aufgaben-Erfolgsrate als auch auf die Generalisierungsfähigkeit erzielt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet | Forschungsarbeiten | HyperAI