vor 8 Monaten

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob

Zusammenfassung

Wir stellen HallusionBench vor, eine umfassende Benchmarking-Umgebung zur Bewertung des Bild-Kontext-Verständnisses. Diese Benchmark stellt fortgeschrittene große visuelle Sprachmodelle (LVLMs) wie GPT-4V(Vision), Gemini Pro Vision, Claude 3 und LLaVA-1.5 erhebliche Herausforderungen, indem sie die feinsinnige Analyse und Interpretation von visuellen Daten betont. HallusionBench besteht aus 346 Bildern, die mit 1129 Fragen gekoppelt sind, allesamt sorgfältig von menschlichen Experten erstellt. Wir führen eine neuartige Struktur für diese visuellen Fragen ein, die es ermöglicht, Kontrollgruppen zu bilden. Diese Struktur ermöglicht es uns, eine quantitative Analyse der Antworttendenzen, logischen Konsistenz und verschiedener Fehlermodi der Modelle durchzuführen. In unserer Auswertung auf HallusionBench haben wir 15 verschiedene Modelle evaluiert und dabei eine Frage-Paar-Akuratesse von 31,42 % für das state-of-the-art Modell GPT-4V hervorgehoben. Auffällig ist, dass alle anderen evaluierten Modelle eine Akuratesse von unter 16 % erreichen. Darüber hinaus beleuchtet unsere Analyse nicht nur die beobachteten Fehlermodi, einschließlich sprachlicher Halluzinationen und visueller Täuschungen, sondern vertieft auch das Verständnis dieser Fallstricke. Unsere umfassenden Fallstudien innerhalb von HallusionBench werfen Licht auf die Herausforderungen von Halluzinationen und Täuschungen in LVLMs. Auf Basis dieser Erkenntnisse schlagen wir potenzielle Ansätze für ihre zukünftige Verbesserung vor. Die Benchmark und der Code können unter https://github.com/tianyi-lab/HallusionBench abgerufen werden.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen | Paper | HyperAI

Command Palette

HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HallusionBench: Eine fortschrittliche DiagnoseSuite für verflochtene Sprachhalluzinationen und visuelle Täuschungen in großen Vision-Sprach-Modellen

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob

Tianrui Guan* Fuxiao Liu* Xiyang Wu Ruiqi Xian Zongxia Li Xiaoyu Liu Xijun Wang Lichang Chen Furong Huang Yaser Yacoob