HyperAI
vor 5 Tagen

DreamVLA: Ein Vision-Sprache-Aktion-Modell, das mit umfassendem Weltwissen geträumt wurde

Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
DreamVLA: Ein Vision-Sprache-Aktion-Modell, das mit umfassendem Weltwissen geträumt wurde
Abstract

Neuere Fortschritte in Vision-Sprache-Aktion (VLA) Modellen haben das Potenzial gezeigt, die Bildgenerierung mit der Aktionserkennung zu integrieren, um die Generalisierung und das Schließen bei Robotermanipulationen zu verbessern. Dennoch sind bestehende Methoden auf anspruchsvolle bildbasierte Vorhersagen beschränkt, die von redundanten Informationen und einem Mangel an umfassendem und kritischen Weltwissen, einschließlich dynamischer, räumlicher und semantischer Informationen, geprägt sind. Um diese Einschränkungen zu überwinden, schlagen wir DreamVLA vor, einen neuen VLA-Rahmen, der umfassende Vorhersagen des Weltwissens integriert, um ein inverses Dynamikmodell zu ermöglichen. Dadurch wird eine Wahrnehmungs-Vorhersage-Aktionsschleife für Manipulationsaufgaben etabliert. Insbesondere führt DreamVLA eine dynamische-Region-gesteuerte Vorhersage des Weltwissens ein, die mit räumlichen und semantischen Hinweisen integriert ist. Diese bieten kompakte aber dennoch umfassende Darstellungen für die Aktionseinsatzplanung. Dieses Design entspricht dem Ansatz, wie Menschen mit der Welt interagieren: Sie bilden zunächst abstrakte multimodale Schlussfolgerungsketten, bevor sie handeln. Um Störungen zwischen dynamischer, räumlicher und semantischer Information während des Trainings zu reduzieren, verwenden wir ein blockweise strukturiertes Aufmerksamkeitsmechanismus (block-wise structured attention mechanism), der ihre gegenseitige Aufmerksamkeit maskiert und so Informationsverluste verhindert sowie jede Darstellung sauber und entflochten hält. Darüber hinaus modellieren wir die bedingte Verteilung zukünftiger Aktionen durch einen diffusionsbasierten Transformer (diffusion-based transformer), der Aktionendarstellungen von gemeinsamen latente Merkmalen trennt. Ausführliche Experimente sowohl in realen als auch in simulierten Umgebungen zeigen, dass DreamVLA bei realen Robotaufgaben einen Erfolgsrate von 76,7 % erreicht und im CALVIN ABC-D Benchmark einen durchschnittlichen Längenwert von 4,44 erzielt.