HyperAIHyperAI

Command Palette

Search for a command to run...

Feinmaschige Präferenzoptimierung verbessert die räumliche Schließfähigkeit in VLMs

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

Zusammenfassung

Aktuelle Vision-Sprach-Modelle (VLMs) haben Schwierigkeiten mit feingranularem räumlichem Schließen, insbesondere wenn mehrstufige Logik und präzise räumliche Ausrichtung erforderlich sind. In dieser Arbeit stellen wir SpatialReasoner-R1 vor, ein Vision-Sprach-Schließungsmodell, das diese Einschränkungen beheben soll. Um hochwertige Supervision für räumliches Schließen zu erstellen, entwickeln wir eine Methode des Multi-Modell Monte Carlo Tree Search (M3CTS), die vielfältige, logisch konsistente Long Chain-of-Thought (LongCoT)-Schlussfolgerungspfade generiert. Darüber hinaus schlagen wir eine feingranulare Direkte Präferenzoptimierung (fDPO) vor, die segmentbezogene Präferenzgranularität für deskriptive Verankerung und logisches Schließen einführt. Diese Optimierung wird durch einen räumlichen Belohnungsmechanismus geleitet, der Kandidatenantworten auf der Grundlage visueller Konsistenz, räumlicher Verankerung und logischer Kohärenz bewertet. Experimentelle Ergebnisse zeigen, dass fDPO im Durchschnitt eine Verbesserung von 4,1 % gegenüber dem Standard-DPO bei Aufgaben zur räumlichen Qualität erreicht und bei Aufgaben zur räumlichen Quantität einen Gewinn von 9,0 % erzielt. SpatialReasoner-R1, das mit fDPO trainiert wurde, setzt einen neuen Stand der Technik (SoTA) auf dem SPATIALRGPT-Bench und übertrifft den stärksten Baseline um 9,8 % im Durchschnittswert der Genauigkeit, während es gleichzeitig wettbewerbsfähige Leistungen bei allgemeinen Vision-Sprach-Aufgaben aufrechterhält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Feinmaschige Präferenzoptimierung verbessert die räumliche Schließfähigkeit in VLMs | Paper | HyperAI