HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Modèle vision-langage à récompense autonome par décomposition du raisonnement

Modèle vision-langage à récompense autonome par décomposition du raisonnement

Résumé

Les modèles vision-langage (VLM) souffrent fréquemment de hallucinations visuelles, c’est-à-dire qu’ils énoncent des informations qui ne sont pas effectivement présentes dans l’image, ainsi que d’« raccourcis linguistiques », où ils sautent la phase de traitement visuel pour se baser uniquement sur des préjugés textuels. Ces problèmes proviennent du fait que la plupart des méthodes de post-entraînement pour les VLM reposent sur un simple alignement des réponses vérifiables et ne supervisent que les sorties finales, laissant les étapes intermédiaires de raisonnement visuel sans guidance explicite. En conséquence, les VLM reçoivent des signaux visuels très rares et ont tendance à privilégier le raisonnement fondé sur le langage plutôt que la perception visuelle. Pour atténuer ces effets, certaines méthodes existantes ajoutent une supervision visuelle à l’aide d’annotations humaines ou de labels distillés provenant de grands modèles externes. Toutefois, les annotations humaines sont coûteuses et exigeantes en main-d’œuvre, et comme les signaux externes ne peuvent pas s’adapter à l’évolution de la politique du modèle, ils entraînent des décalages de distribution susceptibles de provoquer des « hacking de récompense ».Dans cet article, nous proposons Vision-SR1, une méthode auto-récompensée qui améliore le raisonnement visuel sans dépendre de supervision visuelle externe, grâce à l’apprentissage par renforcement. Vision-SR1 décompose le raisonnement du VLM en deux étapes : la perception visuelle et le raisonnement linguistique. Le modèle est d’abord incité à produire des perceptions visuelles autonomes, suffisantes pour répondre à la question sans avoir à se référer à l’image d’entrée. Pour valider cette autonomie, le même modèle VLM est ensuite ré-encouragé à effectuer un raisonnement linguistique en utilisant uniquement la perception générée comme entrée, afin de calculer une récompense auto-générée. Cette récompense auto-référencée est combinée à la supervision des sorties finales, fournissant ainsi un signal d’entraînement équilibré qui renforce à la fois la perception visuelle et le raisonnement linguistique.Nos expérimentations démontrent que Vision-SR1 améliore significativement le raisonnement visuel, atténue les hallucinations visuelles et réduit la dépendance aux raccourcis linguistiques sur une large variété de tâches vision-langage.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèle vision-langage à récompense autonome par décomposition du raisonnement | Articles de recherche | HyperAI