RLHF-V : Vers des MLLM fiables grâce à l'alignement du comportement à partir d'un retour humain corrective à granularité fine

Les Modèles de Langage à Grandes Échelles Multimodaux (MLLM) ont récemment démontré des capacités impressionnantes en compréhension multimodale, raisonnement et interaction. Toutefois, les MLLM existants souffrent largement de problèmes sévères d’hallucinations, produisant des textes non fondés sur les images associées. Ce défaut rend les MLLM actuels peu fiables, et donc inappropriés pour des applications du monde réel, en particulier dans des contextes à enjeux élevés. Pour relever ce défi, nous proposons RLHF-V, une méthode qui améliore la fiabilité des MLLM grâce à une alignement comportemental basé sur un retour humain corrigeant à un niveau fin. Plus précisément, RLHF-V collecte les préférences humaines sous la forme de corrections au niveau des segments sur les hallucinations, puis applique une optimisation directe des préférences à densité élevée sur ces retours. Des expériences approfondies sur cinq benchmarks, évaluées à la fois automatiquement et par des humains, montrent que RLHF-V permet d’obtenir des comportements MLLM nettement plus fiables, tout en offrant une efficacité prometteuse en termes de données et de calcul. Notamment, en utilisant uniquement 1 400 échantillons annotés, RLHF-V réduit significativement le taux d’hallucinations du modèle de base MLLM de 34,8 %, surpassant ainsi LLaVA-RLHF, entraîné sur 10 000 échantillons annotés. Le modèle final atteint un niveau d’avant-garde en matière de fiabilité parmi les MLLM open-source, et présente une meilleure robustesse que GPT-4V pour prévenir les hallucinations provoquées par une généralisation excessive. Nous mettons à disposition notre code, modèle et données sur https://github.com/RLHF-V/RLHF-V.