HyperAIHyperAI

Command Palette

Search for a command to run...

Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Zusammenfassung

Die Verbreitung multimodaler großer Sprachmodelle hat die Fähigkeit erheblich vorangetrieben, komplexe Dateninputs aus verschiedenen Modalitäten zu analysieren und zu verstehen. Die Verarbeitung langer Dokumente bleibt jedoch weitgehend unerforscht, hauptsächlich aufgrund des Mangels an geeigneten Benchmarks. Um diesem Defizit entgegenzuwirken, stellen wir Document Haystack vor – einen umfassenden Benchmark, der zur Bewertung der Leistung von Vision-Language-Modellen (VLMs) bei der Verarbeitung langer, visuell komplexer Dokumente dient. Document Haystack umfasst Dokumente mit einer Länge von 5 bis 200 Seiten und integriert strategisch rein textbasierte oder multimodale Text+Image-„Nadeln“ an verschiedenen Tiefen innerhalb der Dokumente, um die Informationsabruffähigkeit von VLMs herauszufordern. Der Benchmark besteht aus 400 Dokumentvarianten und insgesamt 8.250 Fragen und wird durch ein objektives, automatisiertes Evaluierungsframework unterstützt. Wir beschreiben die Konstruktion und die Eigenschaften der Document Haystack-Datenmenge, präsentieren Ergebnisse prominenter VLMs und diskutieren mögliche Forschungspfade in diesem Bereich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp