Command Palette
Search for a command to run...
Diskrete Diffusions-VLA: Einbringen diskreter Diffusion in die Aktionstdekodierung von visuell-sprachlich-handelnden Politiken
Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

Abstract
Vision-Language-Action-(VLA)-Modelle passen große Vision-Sprache-Backbones an, um Bilder und Anweisungen in Roboteraktionen zu überführen. Allerdings generieren gängige VLA-Decoder entweder Aktionen autoregressiv in einer festen links-nach-rechts-Reihenfolge oder integrieren kontinuierliche Diffusions- oder Flow-Matching-Head-Module außerhalb des Backbones. Letzteres erfordert spezialisierte Trainingsmethoden und iterative Sampling-Verfahren, die eine einheitliche und skalierbare Architektur behindern. Wir präsentieren Discrete Diffusion VLA, einen einheitlichen Transformer-Policy-Algorithmus, der diskretisierte Aktionsteile mittels diskreter Diffusion modelliert und mit dem gleichen Cross-Entropy-Zielfunktional wie der VLM-Backbone trainiert wird. Diese Architektur bewahrt das fortschreitende Verfeinerungsparadigma der Diffusion bei gleichzeitiger nativer Kompatibilität mit der diskreten Token-Schnittstelle von VLMs. Unser Ansatz ermöglicht eine adaptive Dekodierungsreihenfolge, bei der einfache Aktionselemente vor schwierigeren erfasst werden, und nutzt sekundäre Remasking-Strategien, um unsichere Vorhersagen über mehrere Verfeinerungsrunden hinweg erneut zu überprüfen. Dadurch wird die Konsistenz verbessert und robuste Fehlerkorrektur ermöglicht. Der einheitliche Decoder bewahrt die vortrainierten Vision-Sprache-Prioritäten, unterstützt parallele Dekodierung, überwindet die autoregressive Engstelle und reduziert die Anzahl der Funktionsauswertungen. Discrete Diffusion VLA erreicht eine durchschnittliche Erfolgsrate (SR) von 96,3 % auf LIBERO, 71,2 % visuelle Übereinstimmung auf SimplerEnv Fractal und 49,3 % insgesamt auf SimplerEnv Bridge – und übertrifft damit sowohl autoregressive als auch kontinuierliche Diffusions-Baselines. Diese Ergebnisse zeigen, dass ein diskretes Diffusions-Aktions-Decoder-Modell präzise Aktionen modellieren und konsistent trainieren kann, und legen damit die Grundlage für die Skalierung von VLA auf größere Modelle und Datenmengen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.