HyperAIHyperAI

Command Palette

Search for a command to run...

vor 13 Tagen

FLOWER: Demokratisierung allgemeiner Roboterpolitiken mittels effizienter Vision-Sprache-Aktion-Fluss-Politiken

Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

FLOWER: Demokratisierung allgemeiner Roboterpolitiken mittels effizienter Vision-Sprache-Aktion-Fluss-Politiken

Abstract

Die Entwicklung effizienter Vision-Language-Action-(VLA-)Policen ist entscheidend für die praktische Anwendung von Robotik, doch bestehende Ansätze sind durch prohibitiv hohe Rechenkosten und Ressourcenanforderungen eingeschränkt. Aktuelle auf Diffusionsmodellen basierende VLA-Policen erfordern Modelle mit mehreren Milliarden Parametern und riesige Datensätze, um eine hohe Leistung zu erzielen. Wir begegnen dieser Effizienzproblematik mit zwei zentralen Beiträgen: Erstens der Intermediate-Modality-Fusion, die die Kapazität durch das Pruning von bis zu 50 % der Schichten eines großen Sprachmodells (LLM) gezielt an den Diffusionskopf verlagert, und zweitens der actionsspezifischen Global-AdaLN-Conditioning-Technik, die die Anzahl der Parameter um 20 % reduziert, indem modulare Anpassungen eingesetzt werden. Diese Fortschritte integrieren wir in ein neuartiges VLA-Modell mit 950 Mio. Parametern namens FLOWER. Nach einer Vortrainingsdauer von lediglich 200 H100-GPU-Stunden erreicht FLOWER eine konkurrenzfähige Leistung gegenüber größeren VLA-Modellen bei 190 Aufgaben, die sich über zehn Simulations- und reale Benchmark-Plattformen erstrecken, und zeigt Robustheit gegenüber einer Vielzahl unterschiedlicher Roboter-Embodiments. Zudem erzielt FLOWER eine neue SOTA-Leistung von 4,53 auf dem CALVIN-ABC-Benchmark. Demo-Videos, Quellcode und vortrainierte Gewichte sind unter https://intuitive-robots.github.io/flower_vla/ verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FLOWER: Demokratisierung allgemeiner Roboterpolitiken mittels effizienter Vision-Sprache-Aktion-Fluss-Politiken | Forschungsarbeiten | HyperAI