Feinmaschige Präferenzoptimierung verbessert die räumliche Schließfähigkeit in VLMs

Aktuelle Vision-Sprach-Modelle (VLMs) haben Schwierigkeiten mit feingranularem räumlichem Schließen, insbesondere wenn mehrstufige Logik und präzise räumliche Ausrichtung erforderlich sind. In dieser Arbeit stellen wir SpatialReasoner-R1 vor, ein Vision-Sprach-Schließungsmodell, das diese Einschränkungen beheben soll. Um hochwertige Supervision für räumliches Schließen zu erstellen, entwickeln wir eine Methode des Multi-Modell Monte Carlo Tree Search (M3CTS), die vielfältige, logisch konsistente Long Chain-of-Thought (LongCoT)-Schlussfolgerungspfade generiert. Darüber hinaus schlagen wir eine feingranulare Direkte Präferenzoptimierung (fDPO) vor, die segmentbezogene Präferenzgranularität für deskriptive Verankerung und logisches Schließen einführt. Diese Optimierung wird durch einen räumlichen Belohnungsmechanismus geleitet, der Kandidatenantworten auf der Grundlage visueller Konsistenz, räumlicher Verankerung und logischer Kohärenz bewertet. Experimentelle Ergebnisse zeigen, dass fDPO im Durchschnitt eine Verbesserung von 4,1 % gegenüber dem Standard-DPO bei Aufgaben zur räumlichen Qualität erreicht und bei Aufgaben zur räumlichen Quantität einen Gewinn von 9,0 % erzielt. SpatialReasoner-R1, das mit fDPO trainiert wurde, setzt einen neuen Stand der Technik (SoTA) auf dem SPATIALRGPT-Bench und übertrifft den stärksten Baseline um 9,8 % im Durchschnittswert der Genauigkeit, während es gleichzeitig wettbewerbsfähige Leistungen bei allgemeinen Vision-Sprach-Aufgaben aufrechterhält.