HyperAIHyperAI

Command Palette

Search for a command to run...

BagelVLA: Verbesserung der Langzeit-Manipulation durch abwechselnde Generierung von Vision-Sprache-Aktion

Zusammenfassung

Die Ausstattung körperhafter Agenten mit der Fähigkeit, Aufgaben zu analysieren, physikalische Auswirkungen vorherzusagen und präzise Aktionen zu generieren, ist entscheidend für allgemeine Manipulation. Obwohl neuere Vision-Language-Action-(VLA)-Modelle auf vortrainierten Grundmodelle zurückgreifen, konzentrieren sie sich typischerweise entweder allein auf sprachbasiertes Planen oder visuelle Vorhersage. Diese Ansätze integrieren selten beide Fähigkeiten gleichzeitig, um die Aktionserzeugung zu leiten, was zu suboptimalen Ergebnissen bei komplexen, langfristigen Manipulationsaufgaben führt. Um diese Lücke zu schließen, stellen wir BagelVLA vor, ein einheitliches Modell, das sprachbasiertes Planen, visuelle Vorhersage und Aktionserzeugung in einem einzigen Rahmen integriert. Aus einem vortrainierten, einheitlichen Verständnis- und Generativmodell initiiert, wird BagelVLA so trainiert, dass textuelle Schlussfolgerungen und visuelle Vorhersagen direkt in die Aktionsexekutionsschleife eingebettet werden. Um diese Modalitäten effizient zu koppeln, führen wir Residual Flow Guidance (RFG) ein, das sich auf die aktuelle Beobachtung stützt und eine Einzelschritt-Denoising-Technik nutzt, um prädiktive visuelle Merkmale zu extrahieren und die Aktionserzeugung mit minimaler Latenz zu leiten. Umfassende Experimente zeigen, dass BagelVLA bestehende Baselines auf mehreren simulierten und realen Benchmarks deutlich übertrifft, insbesondere bei Aufgaben, die mehrstufige Schlussfolgerungen erfordern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp