HyperAIHyperAI
il y a 17 jours

Volcan : Atténuation de l'hallucination multimodale grâce à une révision guidée par un auto-retour

Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo
Volcan : Atténuation de l'hallucination multimodale grâce à une révision guidée par un auto-retour
Résumé

Les grands modèles multimodaux souffrent de hallucinations multimodales, c’est-à-dire qu’ils produisent des réponses incorrectes déconnectées des informations visuelles fournies. Des travaux récents ont suggéré qu’une des causes de ces hallucinations réside dans le fait que l’encodeur visuel échoue à s’ancrer correctement dans l’image. Pour atténuer ce problème, nous proposons une nouvelle approche fondée sur l’utilisation du retour d’information auto-généré comme indice visuel. À partir de cette approche, nous introduisons Volcano, un modèle révisé guidé par un feedback multimodal auto-généré. Volcano génère un retour en langage naturel à partir de sa réponse initiale, en s’appuyant sur les informations visuelles fournies, puis utilise ce feedback pour réviser automatiquement sa réponse initiale. Volcano réduit efficacement les hallucinations multimodales et atteint l’état de l’art sur les benchmarks MMHal-Bench, POPE et GAVIE. Il améliore également les performances générales en traitement multimodal et surpasse les modèles précédents sur MM-Vet et MMBench. Une analyse qualitative montre que les retours d’information de Volcano sont mieux ancrés dans l’image que la réponse initiale. Cela indique que Volcano peut enrichir sa propre compréhension visuelle grâce à la génération de feedback, permettant ainsi une auto-correction des hallucinations. Nous mettons publiquement à disposition notre modèle, les données et le code source à l’adresse suivante : https://github.com/kaistAI/Volcano