HyperAI
il y a 17 jours

MiCo : Contraste multi-image pour le raisonnement visuel renforcé

Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
MiCo : Contraste multi-image pour le raisonnement visuel renforcé
Résumé

Ce travail explore l'activation du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) pour lier des indices visuels à travers plusieurs images. Une solution directe consiste à adapter l'apprentissage par renforcement basé sur des règles pour les modèles vision-langue (Vision-Language Models, VLMs). Cependant, ces méthodes reposent généralement sur des paires question-réponse curatées manuellement, ce qui peut être particulièrement difficile lorsqu'il s'agit de détails visuels fins et de logiques complexes entre les images. Inspirés par l'apprentissage auto-supervisé des représentations visuelles, nous observons que les images contiennent des contraintes inhérentes qui peuvent servir de supervision. Sur cette base, nous construisons des triplets d'images composés de deux vues augmentées de la même image et d'une troisième image similaire mais distincte. Pendant l'entraînement, le modèle est invité à générer un processus de raisonnement pour comparer ces images (c'est-à-dire déterminer si elles sont identiques ou différentes). Nous optimisons ensuite le modèle avec un apprentissage par renforcement basé sur des règles. En raison de la forte similarité visuelle et de la présence d'augmentations, le modèle doit prêter attention aux changements visuels subtils et effectuer un raisonnement logique pour réussir. Les expériences montrent que, bien que formé uniquement sur des tâches de comparaison visuelle, la capacité de raisonnement apprise se généralise efficacement à une large gamme de questions. Sans recourir à aucune paire question-réponse annotée par des humains, notre méthode réalise des améliorations significatives sur les bancs d'essai de raisonnement multi-images et montre une performance robuste dans les tâches générales de vision.