L'optimisation fine-grainée des préférences améliore le raisonnement spatial dans les VLMs.

Les modèles actuels de vision-langage (VLMs) ont des difficultés avec le raisonnement spatial fine-grain, en particulier lorsqu'une logique en plusieurs étapes et une alignement spatial précis sont nécessaires. Dans cette étude, nous présentons SpatialReasoner-R1, un modèle de raisonnement vision-langage conçu pour surmonter ces limitations. Pour construire une supervision de haute qualité pour le raisonnement spatial, nous avons élaboré une méthode de recherche arborescente Monte Carlo multi-modèle (M3CTS) qui génère des trajectoires de raisonnement Long Chain-of-Thought (LongCoT) diverses et logiquement cohérentes. De plus, nous proposons une optimisation fine-grain des préférences directes (fDPO), qui introduit une granularité de préférence spécifique à chaque segment pour l'ancrage descriptif et le raisonnement logique, guidée par un mécanisme de récompense spatial évaluant les réponses candidates en fonction de la cohérence visuelle, de l'ancrage spatial et de la cohérence logique. Les résultats expérimentaux montrent que fDPO réalise une amélioration moyenne de 4,1 % par rapport à l'optimisation standard des préférences directes (DPO) dans les tâches d'évaluation spatiale, et un gain de 9,0 % dans les tâches quantitatives spatiales. SpatialReasoner-R1, formé avec fDPO, établit un nouveau meilleur niveau d'état de l'art (SoTA) sur SPATIALRGPT-Bench, surpassant la meilleure ligne de base avec une précision moyenne supérieure de 9,8 % tout en maintenant des performances compétitives sur les tâches générales de vision-langage.