RLAIF-V : Un retour d'information IA open-source conduit à une fiabilité supérieure à celle de GPT-4V

L’apprentissage par rétroaction traditionnel visant à réduire les hallucinations repose sur des étiquetages manuels coûteux en main-d’œuvre ou sur des modèles propriétaires onéreux. Cette situation laisse la communauté sans connaissances fondamentales sur la manière de construire des feedbacks de haute qualité à l’aide de MLLMs open-source. Dans ce travail, nous introduisons RLAIF-V, un cadre novateur qui aligne les MLLMs dans un paradigme entièrement open-source. RLAIF-V exploite de manière optimale les MLLMs open-source sous deux angles : la génération de données de feedback de haute qualité pour l’apprentissage par préférence, et la guidance par auto-rétroaction pour l’échelle au moment de l’inférence. Des expérimentations étendues sur six benchmarks, évaluées aussi bien automatiquement qu’humainement, montrent que RLAIF-V améliore de manière significative la fiabilité des modèles, tant durant l’apprentissage par préférence que lors de l’inférence. Le modèle RLAIF-V 7B réduit les hallucinations d’objets de 80,7 % et les hallucinations globales de 33,7 %. De manière remarquable, RLAIF-V 12B révèle un potentiel d’auto-alignement des MLLMs open-source, où le modèle parvient à apprendre à partir de ses propres feedbacks afin d’atteindre une fiabilité supérieure à celle du GPT-4V.