Lernen, Objekte zu lokalisieren, verbessert das räumliche Schließen bei visuellen LLMs

Die Integration großer Sprachmodelle (LLMs) in Aufgaben des visuellen Bereichs hat visuelle Sprachmodelle (V-LLMs) hervorgebracht, die herausragende Leistungen in visuell-sprachlichen Aufgaben erzielen, insbesondere bei der visuellen Fragebeantwortung (VQA). Dennoch zeigen bestehende V-LLMs (z. B. BLIP-2, LLaVA) eine schwache räumliche Schlussfolgerungsfähigkeit und geringe Lokalisierungswahrnehmung. Trotz der Erzeugung hochdetaillierter und ausführlicher Textantworten versagen diese Modelle bei einfachen Aufgaben wie der Unterscheidung zwischen links und rechts. In dieser Arbeit untersuchen wir, wie durch instruktionsbasierte Feinabstimmung auf der Basis von Bildraum-Koordinaten räumliche Wahrnehmung in V-LLMs eingeführt werden kann. Wir identifizieren optimale Koordinatendarstellungen, dateneffiziente Feinabstimmungsziele und Strategien zur Generierung von Pseudodaten, die zu einer verbesserten räumlichen Wahrnehmung in V-LLMs führen. Zudem zeigt unser resultierendes Modell eine verbesserte Leistung bei der VQA über Bild- und Videodomänen hinweg, reduziert unerwünschte Halluzinationen und generiert präzisere kontextbezogene Objektbeschreibungen. Experimente an fünf visuell-sprachlichen Aufgaben mit insgesamt 14 unterschiedlichen Datensätzen belegen eindeutig die verbesserte Leistungsfähigkeit unseres vorgeschlagenen Ansatzes.