vor einem Monat

VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren

Details der Forschungsarbeit anzeigen Code anzeigen

Hengtao Li Pengxiang Ding Runze Suo Yihao Wang Zirui Ge Dongyuan Zang Kexian Yu Mingyang Sun Hongyin Zhang Donglin Wang

VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren

Abstract

Vision-Language-Action-(VLA)-Modelle ermöglichen körperhafte Entscheidungsfindung, setzen jedoch stark auf Nachahmungslernen, was zu kumulativen Fehlern und geringer Robustheit unter Verteilungsshift führt. Reinforcement Learning (RL) kann diese Probleme mindern, erfordert jedoch typischerweise kostspielige Interaktionen in der realen Welt oder leidet unter Sim-to-Real-Lücken. Wir stellen VLA-RFT vor, einen Rahmen für die Verstärkungsfine-tuning, der ein datenbasiertes Weltmodell als steuerbaren Simulator nutzt. Aus realen Interaktionsdaten trainiert, prognostiziert der Simulator zukünftige visuelle Beobachtungen bedingt auf Aktionen und ermöglicht so Policy-Rollouts mit dichten, trajektorienbasierten Belohnungen, die aus zielerreichenden Referenzen abgeleitet werden. Diese Architektur liefert ein effizientes und aktionsorientiertes Lernsignal, das die Anzahl benötigter Proben drastisch reduziert. Mit weniger als 400 Fine-Tuning-Schritten übertrifft VLA-RFT starke überwachte Baselines und erreicht eine höhere Effizienz als simulatorbasiertes RL. Zudem zeigt es eine starke Robustheit unter gestörten Bedingungen und gewährleistet stabile Aufgabenausführung. Unsere Ergebnisse etablieren das weltmodellbasierte RFT als praktikable Nachtrainingsparadigma zur Verbesserung der Generalisierbarkeit und Robustheit von VLA-Modellen. Weitere Details finden Sie unter https://vla-rft.github.io/.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren

Hengtao Li Pengxiang Ding Runze Suo Yihao Wang Zirui Ge Dongyuan Zang Kexian Yu Mingyang Sun Hongyin Zhang Donglin Wang1 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Hengtao Li Pengxiang Ding Runze Suo Yihao Wang Zirui Ge Dongyuan Zang Kexian Yu Mingyang Sun Hongyin Zhang Donglin Wang