HyperAIHyperAI
vor 11 Tagen

SpatialVLM: Ausstattung von Vision-Language-Modellen mit Fähigkeiten zur räumlichen Schlussfolgerung

Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
SpatialVLM: Ausstattung von Vision-Language-Modellen mit Fähigkeiten zur räumlichen Schlussfolgerung
Abstract

Das Verständnis und die Schlussfolgerung räumlicher Beziehungen ist eine grundlegende Fähigkeit für Visual Question Answering (VQA) und Robotik. Obwohl Vision-Language-Modelle (VLM) beachtliche Leistungen in bestimmten VQA-Benchmarks gezeigt haben, verfügen sie weiterhin über begrenzte Fähigkeiten im Bereich der 3D-räumlichen Schlussfolgerung, beispielsweise bei der Erkennung quantitativer Beziehungen physischer Objekte wie Abständen oder Größenunterschieden. Wir vermuten, dass die eingeschränkte räumliche Schlussfolgerungsfähigkeit von VLMs darauf zurückzuführen ist, dass die Trainingsdaten fehlende 3D-räumliche Wissensbasis enthalten, und zielen darauf ab, dieses Problem zu lösen, indem VLMs mit internet-skalierbaren Daten für räumliche Schlussfolgerung trainiert werden. Dazu präsentieren wir ein System, das diesen Ansatz unterstützen soll. Zunächst entwickeln wir einen automatisierten Framework zur Generierung von 3D-räumlichen VQA-Daten, der bis zu zwei Milliarden VQA-Beispiele auf zehn Millionen realen Bildern skaliert. Anschließend untersuchen wir verschiedene Faktoren im Trainingsrezept, darunter Datenauswahlqualität, Trainingspipeline und VLM-Architektur. Unser Werk stellt erstmals einen internet-skalierbaren Datensatz für 3D-räumliche Schlussfolgerung im metrischen Raum vor. Durch das Training eines VLMs auf solchen Daten verbessern wir signifikant dessen Fähigkeit sowohl für qualitative als auch für quantitative räumliche VQA. Schließlich zeigen wir, dass dieses VLM aufgrund seiner Fähigkeit zur quantitativen Schätzung neue Anwendungsmöglichkeiten in der Kette-von-Gedanken-räumlichen Schlussfolgerung und in der Robotik ermöglicht. Projekt-Website: https://spatial-vlm.github.io/

SpatialVLM: Ausstattung von Vision-Language-Modellen mit Fähigkeiten zur räumlichen Schlussfolgerung | Neueste Forschungsarbeiten | HyperAI