HallusionBench : Une Suite Diagnostique Avancée pour les Hallucinations Linguistiques et Visuelles Entrelacées dans les Grands Modèles Vision-Langage

Nous présentons HallusionBench, un benchmark complet conçu pour l'évaluation de la raisonnement image-contexte. Ce benchmark présente des défis importants aux modèles visuels-linguistiques avancés (LVLMs) tels que GPT-4V(Vision), Gemini Pro Vision, Claude 3 et LLaVA-1.5, en mettant l'accent sur une compréhension et une interprétation nuancées des données visuelles. Le benchmark comprend 346 images associées à 1129 questions, toutes soigneusement élaborées par des experts humains. Nous introduisons une nouvelle structure pour ces questions visuelles conçue pour établir des groupes de contrôle. Cette structure nous permet de mener une analyse quantitative des tendances de réponse, de la cohérence logique et des différents modes d'échec des modèles. Dans notre évaluation sur HallusionBench, nous avons testé 15 modèles différents, soulignant une précision de paires de questions de 31,42 % atteinte par le modèle GPT-4V de pointe. Il est notable que tous les autres modèles évalués obtiennent une précision inférieure à 16 %. De plus, notre analyse non seulement met en lumière les modes d'échec observés, y compris l'hallucination linguistique et l'illusion visuelle, mais elle approfondit également la compréhension de ces pièges. Nos études de cas exhaustives au sein de HallusionBench éclairent les défis liés à l'hallucination et à l'illusion dans les LVLMs. Sur la base de ces observations, nous suggérons des voies potentielles pour leur amélioration future. Le benchmark et le code source sont disponibles à l'adresse suivante : https://github.com/tianyi-lab/HallusionBench.