vor 5 Monaten

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Zusammenfassung

Die Ausführung sprachbedingter Aufgaben in dynamischen visuellen Umgebungen bleibt eine zentrale Herausforderung im Bereich der embodied AI. Bestehende Vision-Language-Action-(VLA)-Modelle basieren überwiegend auf reaktiven Zustands-zu-Aktion-Zuordnungen, was häufig kurzfristiges Verhalten und eine geringe Robustheit in dynamischen Szenarien zur Folge hat. In diesem Artikel stellen wir F1 vor, einen vortrainierten VLA-Framework, der die Generierung visueller Vorwegnahme in den Entscheidungsprozess integriert. F1 nutzt eine Mixture-of-Transformer-Architektur mit spezialisierten Modulen für Wahrnehmung, Vorwegnahmegeneration und Steuerung, wodurch ein Brückenschlag zwischen Verständnis, Generierung und Handlung ermöglicht wird. Kernstück von F1 ist eine Next-Scale-Vorhersagemechanismus, der zielbedingte visuelle Vorwegnahmen als explizite Planungsziele synthetisiert. Durch die Vorhersage plausibler zukünftiger visueller Zustände reformuliert F1 die Aktionserzeugung als inverse Dynamik-Aufgabe, die durch Vorwegnahme geleitet wird, wodurch Aktionen ermöglicht werden, die implizit visuelle Ziele erreichen. Um F1 robuste und verallgemeinerungsfähige Fähigkeiten zu verleihen, schlagen wir ein dreistufiges Trainingsrezept auf einem umfangreichen Datensatz vor, der über 330.000 Trajektorien über 136 verschiedene Aufgaben umfasst. Dieses Trainingsverfahren fördert modulare Schlussfolgerungen und verleiht dem Modell übertragbare visuelle Vorwegnahmefähigkeiten, die für komplexe und dynamische Umgebungen entscheidend sind. Umfassende Evaluierungen an realen Aufgaben und Simulationsbenchmarks zeigen, dass F1 bestehende Ansätze konsistent übertrifft und erhebliche Verbesserungen sowohl in Bezug auf die Aufgaben-Erfolgsrate als auch auf die Generalisierungsfähigkeit erzielt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Körperliche Intelligenz

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Körperliche Intelligenz

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

F1: Ein Vision-Sprache-Aktion-Modell, das Verständnis und Generierung mit Aktionen verbindet

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters