HyperAIHyperAI

Command Palette

Search for a command to run...

SpatialBot: Präzises räumliches Verständnis mit Vision-Language-Modellen

Wenxiao Cai Iaroslav Ponomarenko Jianhao Yuan Xiaoqi Li Wankou Yang Hao Dong Bo Zhao

Zusammenfassung

Vision Language Models (VLMs) haben beeindruckende Leistungen bei der Verarbeitung von 2D-Bildern erzielt, stoßen jedoch weiterhin auf Schwierigkeiten bei der räumlichen Wahrnehmung, die die Grundlage für Embodied AI darstellt. In diesem Paper stellen wir SpatialBot vor, ein Ansatz zur Verbesserung der räumlichen Wahrnehmung durch die gleichzeitige Verarbeitung von RGB- und Tiefenbildern. Zudem haben wir die SpatialQA-Datenbank erstellt, die mehrstufige, tiefenbezogene Fragen enthält, um VLMs gezielt im Verständnis von Tiefeninformationen zu trainieren. Abschließend präsentieren wir SpatialBench, eine umfassende Evaluierungsplattform, um die Fähigkeiten von VLMs in der räumlichen Wahrnehmung auf verschiedenen Ebenen zu testen. Ausführliche Experimente an unserem räumlichen Verständnis-Benchmark, allgemeinen VLM-Benchmarks sowie Aufgaben aus dem Bereich Embodied AI zeigen deutliche Verbesserungen der Leistung von SpatialBot, der auf SpatialQA trainiert wurde. Der Modellcode und die Daten sind unter https://github.com/BAAI-DCAI/SpatialBot verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SpatialBot: Präzises räumliches Verständnis mit Vision-Language-Modellen | Paper | HyperAI