HyperAIHyperAI
vor 2 Monaten

HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen

Tianrui Guan; Fuxiao Liu; Xiyang Wu; Ruiqi Xian; Zongxia Li; Xiaoyu Liu; Xijun Wang; Lichang Chen; Furong Huang; Yaser Yacoob; Dinesh Manocha; Tianyi Zhou
HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen
Abstract

Wir stellen HallusionBench vor, eine umfassende Benchmarking-Umgebung zur Bewertung des Bild-Kontext-Verständnisses. Diese Benchmark stellt fortgeschrittene große visuelle Sprachmodelle (LVLMs) wie GPT-4V(Vision), Gemini Pro Vision, Claude 3 und LLaVA-1.5 erhebliche Herausforderungen, indem sie die feinsinnige Analyse und Interpretation von visuellen Daten betont. HallusionBench besteht aus 346 Bildern, die mit 1129 Fragen gekoppelt sind, allesamt sorgfältig von menschlichen Experten erstellt. Wir führen eine neuartige Struktur für diese visuellen Fragen ein, die es ermöglicht, Kontrollgruppen zu bilden. Diese Struktur ermöglicht es uns, eine quantitative Analyse der Antworttendenzen, logischen Konsistenz und verschiedener Fehlermodi der Modelle durchzuführen. In unserer Auswertung auf HallusionBench haben wir 15 verschiedene Modelle evaluiert und dabei eine Frage-Paar-Akuratesse von 31,42 % für das state-of-the-art Modell GPT-4V hervorgehoben. Auffällig ist, dass alle anderen evaluierten Modelle eine Akuratesse von unter 16 % erreichen. Darüber hinaus beleuchtet unsere Analyse nicht nur die beobachteten Fehlermodi, einschließlich sprachlicher Halluzinationen und visueller Täuschungen, sondern vertieft auch das Verständnis dieser Fallstricke. Unsere umfassenden Fallstudien innerhalb von HallusionBench werfen Licht auf die Herausforderungen von Halluzinationen und Täuschungen in LVLMs. Auf Basis dieser Erkenntnisse schlagen wir potenzielle Ansätze für ihre zukünftige Verbesserung vor. Die Benchmark und der Code können unter https://github.com/tianyi-lab/HallusionBench abgerufen werden.

HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen | Neueste Forschungsarbeiten | HyperAI