HyperAI
il y a 17 jours

Pensée Récompensée par l'Auditeur dans les VLMs pour les Préférences d'Images

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
Pensée Récompensée par l'Auditeur dans les VLMs pour les Préférences d'Images
Résumé

L'entraînement de modèles de récompense robustes et généralisables pour les préférences visuelles humaines est essentiel pour aligner les modèles génératifs texte-à-image et texte-à-vidéo avec l'intention humaine. Cependant, les modèles de récompense actuels échouent souvent à se généraliser, et le réglage supervisé conduit à une mémorisation, nécessitant des pipelines d'annotation complexes. Bien que l'apprentissage par renforcement (AR), en particulier l'Optimisation de Politique Relative Groupe (GRPO), améliore la généralisation, nous avons découvert un mode d'échec clé : une baisse significative de la précision du raisonnement se produit lorsque la trace de raisonnement d'un modèle contredit celle d'un modèle vision-langue indépendant et figé ("auditeur") évaluant la même sortie. Pour remédier à cela, nous introduisons un cadre GRPO augmenté par un auditeur. Dans ce cadre, l'auditeur réévalue la chaîne de pensée du raisonneur pour fournir une note de confiance dense et calibrée, façonnant le signal de récompense AR. Cela encourage le raisonneur non seulement à répondre correctement, mais aussi à produire des explications convaincantes pour un modèle indépendant. Notre schéma de récompense guidé par l'auditeur atteint la meilleure précision sur le banc d'essai ImageReward (67,4 %), améliore considérablement les performances hors distribution (OOD) sur un grand ensemble de données de préférences humaines (1,2 million de votes, jusqu'à +6 % par rapport au raisonneur naïf) et réduit les contradictions dans le raisonnement par rapport aux lignes de base GRPO et SFT fortes. Ces résultats démontrent que les récompenses basées sur l'auditeur offrent une voie évolutrice et efficace en termes de données pour aligner les modèles vision-langue avec des préférences humaines nuancées. Nous publierons notre modèle de raisonnement ici :https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.