Command Palette
Search for a command to run...
Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken
Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken
Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo
Zusammenfassung
Vision-Language-Action-(VLA)-Modelle passen große Vision-Sprache-Backbones an, um Bilder und Anweisungen in Roboteraktionen zu überführen. Allerdings generieren gängige VLA-Decoder entweder Aktionen autoregressiv in einer festen links-nach-rechts-Reihenfolge oder integrieren kontinuierliche Diffusions- oder Flow-Matching-Head-Module außerhalb des Backbones. Letzteres erfordert spezialisierte Trainingsmethoden und iterative Sampling-Verfahren, die eine einheitliche und skalierbare Architektur behindern. Wir präsentieren Discrete Diffusion VLA, einen einheitlichen Transformer-Policy-Algorithmus, der diskretisierte Aktionsteile mittels diskreter Diffusion modelliert und mit dem gleichen Cross-Entropy-Zielfunktional wie der VLM-Backbone trainiert wird. Diese Architektur bewahrt das fortschreitende Verfeinerungsparadigma der Diffusion bei gleichzeitiger nativer Kompatibilität mit der diskreten Token-Schnittstelle von VLMs. Unser Ansatz ermöglicht eine adaptive Dekodierungsreihenfolge, bei der einfache Aktionselemente vor schwierigeren erfasst werden, und nutzt sekundäre Remasking-Strategien, um unsichere Vorhersagen über mehrere Verfeinerungsrunden hinweg erneut zu überprüfen. Dadurch wird die Konsistenz verbessert und robuste Fehlerkorrektur ermöglicht. Der einheitliche Decoder bewahrt die vortrainierten Vision-Sprache-Prioritäten, unterstützt parallele Dekodierung, überwindet die autoregressive Engstelle und reduziert die Anzahl der Funktionsauswertungen. Discrete Diffusion VLA erreicht eine durchschnittliche Erfolgsrate (SR) von 96,3 % auf LIBERO, 71,2 % visuelle Übereinstimmung auf SimplerEnv Fractal und 49,3 % insgesamt auf SimplerEnv Bridge – und übertrifft damit sowohl autoregressive als auch kontinuierliche Diffusions-Baselines. Diese Ergebnisse zeigen, dass ein diskretes Diffusions-Aktions-Decoder-Modell präzise Aktionen modellieren und konsistent trainieren kann, und legen damit die Grundlage für die Skalierung von VLA auf größere Modelle und Datenmengen.