Command Palette
Search for a command to run...
FLOWER: Demokratisierung allgemeiner Roboterpolitiken mittels effizienter Vision-Sprache-Aktion-Fluss-Politiken
Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

Abstract
Die Entwicklung effizienter Vision-Language-Action-(VLA-)Policen ist entscheidend für die praktische Anwendung von Robotik, doch bestehende Ansätze sind durch prohibitiv hohe Rechenkosten und Ressourcenanforderungen eingeschränkt. Aktuelle auf Diffusionsmodellen basierende VLA-Policen erfordern Modelle mit mehreren Milliarden Parametern und riesige Datensätze, um eine hohe Leistung zu erzielen. Wir begegnen dieser Effizienzproblematik mit zwei zentralen Beiträgen: Erstens der Intermediate-Modality-Fusion, die die Kapazität durch das Pruning von bis zu 50 % der Schichten eines großen Sprachmodells (LLM) gezielt an den Diffusionskopf verlagert, und zweitens der actionsspezifischen Global-AdaLN-Conditioning-Technik, die die Anzahl der Parameter um 20 % reduziert, indem modulare Anpassungen eingesetzt werden. Diese Fortschritte integrieren wir in ein neuartiges VLA-Modell mit 950 Mio. Parametern namens FLOWER. Nach einer Vortrainingsdauer von lediglich 200 H100-GPU-Stunden erreicht FLOWER eine konkurrenzfähige Leistung gegenüber größeren VLA-Modellen bei 190 Aufgaben, die sich über zehn Simulations- und reale Benchmark-Plattformen erstrecken, und zeigt Robustheit gegenüber einer Vielzahl unterschiedlicher Roboter-Embodiments. Zudem erzielt FLOWER eine neue SOTA-Leistung von 4,53 auf dem CALVIN-ABC-Benchmark. Demo-Videos, Quellcode und vortrainierte Gewichte sind unter https://intuitive-robots.github.io/flower_vla/ verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.