Command Palette
Search for a command to run...
F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet
Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Abstract
Die Ausführung sprachbedingter Aufgaben in dynamischen visuellen Umgebungen bleibt eine zentrale Herausforderung im Bereich der embodied AI. Bestehende Vision-Language-Action-(VLA)-Modelle basieren überwiegend auf reaktiven Zustands-zu-Aktion-Zuordnungen, was häufig kurzfristiges Verhalten und eine geringe Robustheit in dynamischen Szenarien zur Folge hat. In diesem Artikel stellen wir F1 vor, einen vortrainierten VLA-Framework, der die Generierung visueller Vorwegnahme in den Entscheidungsprozess integriert. F1 nutzt eine Mixture-of-Transformer-Architektur mit spezialisierten Modulen für Wahrnehmung, Vorwegnahmegeneration und Steuerung, wodurch ein Brückenschlag zwischen Verständnis, Generierung und Handlung ermöglicht wird. Kernstück von F1 ist eine Next-Scale-Vorhersagemechanismus, der zielbedingte visuelle Vorwegnahmen als explizite Planungsziele synthetisiert. Durch die Vorhersage plausibler zukünftiger visueller Zustände reformuliert F1 die Aktionserzeugung als inverse Dynamik-Aufgabe, die durch Vorwegnahme geleitet wird, wodurch Aktionen ermöglicht werden, die implizit visuelle Ziele erreichen. Um F1 robuste und verallgemeinerungsfähige Fähigkeiten zu verleihen, schlagen wir ein dreistufiges Trainingsrezept auf einem umfangreichen Datensatz vor, der über 330.000 Trajektorien über 136 verschiedene Aufgaben umfasst. Dieses Trainingsverfahren fördert modulare Schlussfolgerungen und verleiht dem Modell übertragbare visuelle Vorwegnahmefähigkeiten, die für komplexe und dynamische Umgebungen entscheidend sind. Umfassende Evaluierungen an realen Aufgaben und Simulationsbenchmarks zeigen, dass F1 bestehende Ansätze konsistent übertrifft und erhebliche Verbesserungen sowohl in Bezug auf die Aufgaben-Erfolgsrate als auch auf die Generalisierungsfähigkeit erzielt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.