SpatialBot: Präzises räumliches Verständnis mit Vision-Language-Modellen

Vision Language Models (VLMs) haben beeindruckende Leistungen bei der Verarbeitung von 2D-Bildern erzielt, stoßen jedoch weiterhin auf Schwierigkeiten bei der räumlichen Wahrnehmung, die die Grundlage für Embodied AI darstellt. In diesem Paper stellen wir SpatialBot vor, ein Ansatz zur Verbesserung der räumlichen Wahrnehmung durch die gleichzeitige Verarbeitung von RGB- und Tiefenbildern. Zudem haben wir die SpatialQA-Datenbank erstellt, die mehrstufige, tiefenbezogene Fragen enthält, um VLMs gezielt im Verständnis von Tiefeninformationen zu trainieren. Abschließend präsentieren wir SpatialBench, eine umfassende Evaluierungsplattform, um die Fähigkeiten von VLMs in der räumlichen Wahrnehmung auf verschiedenen Ebenen zu testen. Ausführliche Experimente an unserem räumlichen Verständnis-Benchmark, allgemeinen VLM-Benchmarks sowie Aufgaben aus dem Bereich Embodied AI zeigen deutliche Verbesserungen der Leistung von SpatialBot, der auf SpatialQA trainiert wurde. Der Modellcode und die Daten sind unter https://github.com/BAAI-DCAI/SpatialBot verfügbar.