Silkie : Distillation de préférences pour les grands modèles visuels-langage

Cette étude explore la distillation des préférences pour les grands modèles vision-langage (LVLM), afin d’améliorer leur capacité à générer des réponses utiles et fidèles au contexte visuel. Nous construisons tout d’abord un jeu de données de retour vision-langage (VLFeedback) à l’aide d’une annotation par IA. Plus précisément, les réponses sont générées par des modèles extraits de 12 LVLM, conditionnés par des instructions multimodales provenant de divers jeux de données. Nous utilisons GPT-4V pour évaluer les sorties générées en termes d’utilité, de fidélité visuelle et de considérations éthiques. Par ailleurs, la supervision des préférences est distillée dans Qwen-VL-Chat via la méthode d’optimisation directe des préférences (DPO). Le modèle résultant, Silkie, atteint une amélioration relative de 6,9 % et 9,5 % respectivement sur le benchmark MME en ce qui concerne les capacités de perception et de cognition. Silkie démontre également une réduction significative des hallucinations, établissant un nouveau record état-de-l’art avec un score de 3,02 sur le benchmark MMHal-Bench. Une analyse approfondie indique que le DPO basé sur notre jeu de données VLFeedback renforce principalement les capacités de perception fine et de cognition complexe des LVLM, conduisant à des améliorations plus globales par rapport aux jeux de données de préférences annotés par des humains.