HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren

VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren

Abstract

Vision-Language-Action-(VLA)-Modelle ermöglichen körperhafte Entscheidungsfindung, setzen jedoch stark auf Nachahmungslernen, was zu kumulativen Fehlern und geringer Robustheit unter Verteilungsshift führt. Reinforcement Learning (RL) kann diese Probleme mindern, erfordert jedoch typischerweise kostspielige Interaktionen in der realen Welt oder leidet unter Sim-to-Real-Lücken. Wir stellen VLA-RFT vor, einen Rahmen für die Verstärkungsfine-tuning, der ein datenbasiertes Weltmodell als steuerbaren Simulator nutzt. Aus realen Interaktionsdaten trainiert, prognostiziert der Simulator zukünftige visuelle Beobachtungen bedingt auf Aktionen und ermöglicht so Policy-Rollouts mit dichten, trajektorienbasierten Belohnungen, die aus zielerreichenden Referenzen abgeleitet werden. Diese Architektur liefert ein effizientes und aktionsorientiertes Lernsignal, das die Anzahl benötigter Proben drastisch reduziert. Mit weniger als 400 Fine-Tuning-Schritten übertrifft VLA-RFT starke überwachte Baselines und erreicht eine höhere Effizienz als simulatorbasiertes RL. Zudem zeigt es eine starke Robustheit unter gestörten Bedingungen und gewährleistet stabile Aufgabenausführung. Unsere Ergebnisse etablieren das weltmodellbasierte RFT als praktikable Nachtrainingsparadigma zur Verbesserung der Generalisierbarkeit und Robustheit von VLA-Modellen. Weitere Details finden Sie unter https://vla-rft.github.io/.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLA-RFT: Vision-Sprache-Aktion-Verstärkungsfine-Tuning mit überprüften Belohnungen in Weltsimulatoren | Forschungsarbeiten | HyperAI