Command Palette
Search for a command to run...
VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren

Abstract
Vision-Language-Action-(VLA)-Modelle ermöglichen körperhafte Entscheidungsfindung, setzen jedoch stark auf Nachahmungslernen, was zu kumulativen Fehlern und geringer Robustheit unter Verteilungsshift führt. Reinforcement Learning (RL) kann diese Probleme mindern, erfordert jedoch typischerweise kostspielige Interaktionen in der realen Welt oder leidet unter Sim-to-Real-Lücken. Wir stellen VLA-RFT vor, einen Rahmen für die Verstärkungsfine-tuning, der ein datenbasiertes Weltmodell als steuerbaren Simulator nutzt. Aus realen Interaktionsdaten trainiert, prognostiziert der Simulator zukünftige visuelle Beobachtungen bedingt auf Aktionen und ermöglicht so Policy-Rollouts mit dichten, trajektorienbasierten Belohnungen, die aus zielerreichenden Referenzen abgeleitet werden. Diese Architektur liefert ein effizientes und aktionsorientiertes Lernsignal, das die Anzahl benötigter Proben drastisch reduziert. Mit weniger als 400 Fine-Tuning-Schritten übertrifft VLA-RFT starke überwachte Baselines und erreicht eine höhere Effizienz als simulatorbasiertes RL. Zudem zeigt es eine starke Robustheit unter gestörten Bedingungen und gewährleistet stabile Aufgabenausführung. Unsere Ergebnisse etablieren das weltmodellbasierte RFT als praktikable Nachtrainingsparadigma zur Verbesserung der Generalisierbarkeit und Robustheit von VLA-Modellen. Weitere Details finden Sie unter https://vla-rft.github.io/.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.