
Abstract
Die Erfassung räumlicher Beziehungen aus visuellen Eingaben ist ein zentrales Element menschenähnlicher allgemeiner Intelligenz. Bisherige Studien haben versucht, die räumliche Wahrnehmung von Vision-Language-Modellen (VLMs) durch die Integration zusätzlicher Experten-Encoder zu verbessern, was jedoch zusätzlichen Aufwand verursacht und in der Regel die allgemeinen Fähigkeiten beeinträchtigt. Um die räumliche Fähigkeit in allgemeinen Architekturen zu stärken, stellen wir Visual Spatial Tuning (VST) vor – einen umfassenden Rahmen, der VLMs menschenähnliche visuospaziale Fähigkeiten, von der räumlichen Wahrnehmung bis zur räumlichen Schlussfolgerung, vermittelt. Zunächst erweitern wir die räumliche Wahrnehmung in VLMs durch die Erstellung einer großskaligen Datensammlung namens VST-P, die 4,1 Millionen Beispiele umfasst und 19 Fähigkeiten abdeckt, die sich auf Einzelansichten, mehrere Bilder und Videos beziehen. Anschließend präsentieren wir VST-R, eine sorgfältig ausgewählte Datensammlung mit 135.000 Beispielen, die die Modelle anleitet, räumlich zu schließen. Insbesondere setzen wir eine schrittweise Trainingspipeline ein: zunächst überwachtes Feintuning zur Aufbau von grundlegendem räumlichen Wissen, gefolgt von Verstärkendem Lernen zur weiteren Verbesserung der räumlichen Schlussfolgerungsfähigkeiten. Ohne negative Auswirkungen auf die allgemeinen Fähigkeiten erzielt das vorgeschlagene VST konsistent führende Ergebnisse auf mehreren räumlichen Benchmarks, darunter 34,8 % auf MMSI-Bench und 61,2 % auf VSIBench. Es zeigt sich, dass Vision-Language-Action-Modelle durch die vorgeschlagene räumliche Anpassung signifikant verbessert werden können, was den Weg für eine physikalisch fundiertere künstliche Intelligenz ebnen wird.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.