Command Palette
Search for a command to run...
BagelVLA: Verbesserung der Langzeit-Manipulation durch abwechselnde Generierung von Vision-Sprache-Aktion
BagelVLA: Verbesserung der Langzeit-Manipulation durch abwechselnde Generierung von Vision-Sprache-Aktion
Zusammenfassung
Die Ausstattung körperhafter Agenten mit der Fähigkeit, Aufgaben zu analysieren, physikalische Auswirkungen vorherzusagen und präzise Aktionen zu generieren, ist entscheidend für allgemeine Manipulation. Obwohl neuere Vision-Language-Action-(VLA)-Modelle auf vortrainierten Grundmodelle zurückgreifen, konzentrieren sie sich typischerweise entweder allein auf sprachbasiertes Planen oder visuelle Vorhersage. Diese Ansätze integrieren selten beide Fähigkeiten gleichzeitig, um die Aktionserzeugung zu leiten, was zu suboptimalen Ergebnissen bei komplexen, langfristigen Manipulationsaufgaben führt. Um diese Lücke zu schließen, stellen wir BagelVLA vor, ein einheitliches Modell, das sprachbasiertes Planen, visuelle Vorhersage und Aktionserzeugung in einem einzigen Rahmen integriert. Aus einem vortrainierten, einheitlichen Verständnis- und Generativmodell initiiert, wird BagelVLA so trainiert, dass textuelle Schlussfolgerungen und visuelle Vorhersagen direkt in die Aktionsexekutionsschleife eingebettet werden. Um diese Modalitäten effizient zu koppeln, führen wir Residual Flow Guidance (RFG) ein, das sich auf die aktuelle Beobachtung stützt und eine Einzelschritt-Denoising-Technik nutzt, um prädiktive visuelle Merkmale zu extrahieren und die Aktionserzeugung mit minimaler Latenz zu leiten. Umfassende Experimente zeigen, dass BagelVLA bestehende Baselines auf mehreren simulierten und realen Benchmarks deutlich übertrifft, insbesondere bei Aufgaben, die mehrstufige Schlussfolgerungen erfordern.