HyperAIHyperAI

Command Palette

Search for a command to run...

L'optimisation fine-grainée des préférences améliore le raisonnement spatial dans les VLMs.

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

Résumé

Les modèles actuels de vision-langage (VLMs) ont des difficultés avec le raisonnement spatial fine-grain, en particulier lorsqu'une logique en plusieurs étapes et une alignement spatial précis sont nécessaires. Dans cette étude, nous présentons SpatialReasoner-R1, un modèle de raisonnement vision-langage conçu pour surmonter ces limitations. Pour construire une supervision de haute qualité pour le raisonnement spatial, nous avons élaboré une méthode de recherche arborescente Monte Carlo multi-modèle (M3CTS) qui génère des trajectoires de raisonnement Long Chain-of-Thought (LongCoT) diverses et logiquement cohérentes. De plus, nous proposons une optimisation fine-grain des préférences directes (fDPO), qui introduit une granularité de préférence spécifique à chaque segment pour l'ancrage descriptif et le raisonnement logique, guidée par un mécanisme de récompense spatial évaluant les réponses candidates en fonction de la cohérence visuelle, de l'ancrage spatial et de la cohérence logique. Les résultats expérimentaux montrent que fDPO réalise une amélioration moyenne de 4,1 % par rapport à l'optimisation standard des préférences directes (DPO) dans les tâches d'évaluation spatiale, et un gain de 9,0 % dans les tâches quantitatives spatiales. SpatialReasoner-R1, formé avec fDPO, établit un nouveau meilleur niveau d'état de l'art (SoTA) sur SPATIALRGPT-Bench, surpassant la meilleure ligne de base avec une précision moyenne supérieure de 9,8 % tout en maintenant des performances compétitives sur les tâches générales de vision-langage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L'optimisation fine-grainée des préférences améliore le raisonnement spatial dans les VLMs. | Articles | HyperAI