HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise

RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise

Abstract

Neuere Fortschritte in visuellen und sprachbasierten Grundmodellen haben die multimodale Verständnisfähigkeit, Schlussfolgerung und Generierung erheblich vorangebracht und haben ein starkes Interesse an der Erweiterung solcher Fähigkeiten in körperhafte (embodied) Umgebungen durch Vision- Sprache-Aktion-Modelle (VLA) geweckt. Doch sind die meisten VLA-Modelle weiterhin mittels überwachtem Feinabstimmen (Supervised Fine-Tuning, SFT) trainiert, das unter Verteilungsverschiebungen aufgrund von Fehlerakku­mulation Schwierigkeiten bei der Generalisierung zeigt. Die Verstärkende Lernmethode (Reinforcement Learning, RL) bietet hingegen eine vielversprechende Alternative, da sie die Aufgabenleistung direkt durch Interaktion optimiert. Bisherige Ansätze bleiben jedoch fragmentiert und fehlt ein einheitlicher Plattformrahmen für einen fairen und systematischen Vergleich verschiedener Modellarchitekturen und algorithmischer Designs. Um diese Lücke zu schließen, stellen wir RLinf-VLA vor – einen einheitlichen und effizienten Rahmen für skalierbares RL-Training von VLA-Modellen. Das System nutzt eine hochflexible Ressourcenallokationsarchitektur, die die Herausforderung der Integration von Rendering, Training und Inferenz im RL+VLA-Training adressiert. Insbesondere für GPU-parallele Simulatoren implementiert RLinf-VLA einen neuartigen hybriden, feingranularen Pipelineneinsatzmodus, der eine Beschleunigung des Trainings um das 1,61- bis 1,88-fache ermöglicht. Durch eine einheitliche Schnittstelle unterstützt RLinf-VLA nahtlos verschiedene VLA-Architekturen (z. B. OpenVLA, OpenVLA-OFT), mehrere RL-Algorithmen (z. B. PPO, GRPO) sowie verschiedene Simulatoren (z. B. ManiSkill, LIBERO). In Simulationen erreicht ein einheitliches Modell eine Erfolgsrate von 98,11 % über 130 LIBERO-Aufgaben und 97,66 % über 25 ManiSkill-Aufgaben. Neben der empirischen Leistung leiten wir aus unserer Studie eine Reihe bewährter Praktiken für die Anwendung von RL im VLA-Training ab und beleuchten sich abzeichnende Muster in dieser Integration. Darüber hinaus präsentieren wir erste Ergebnisse der Bereitstellung auf einem realen Franka-Roboter, bei dem RL-getrainierte Politiken eine stärkere Generalisierungsfähigkeit zeigen als jene, die mit SFT trainiert wurden. Wir sehen in RLinf-VLA eine Grundlage, die die Forschung zu körperhafter Intelligenz beschleunigen und standardisieren wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RLinf-VLA: Ein einheitlicher und effizienter Rahmen für die VLA+RL-Trainingsweise | Forschungsarbeiten | HyperAI