HyperAIHyperAI
vor 10 Tagen

Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur
Document Haystack: Ein Benchmark für multimodale Bild-/Dokumentenverstehens-Vision-LLMs mit langen Kontexten
Abstract

Die Verbreitung multimodaler großer Sprachmodelle hat die Fähigkeit erheblich vorangetrieben, komplexe Dateninputs aus verschiedenen Modalitäten zu analysieren und zu verstehen. Die Verarbeitung langer Dokumente bleibt jedoch weitgehend unerforscht, hauptsächlich aufgrund des Mangels an geeigneten Benchmarks. Um diesem Defizit entgegenzuwirken, stellen wir Document Haystack vor – einen umfassenden Benchmark, der zur Bewertung der Leistung von Vision-Language-Modellen (VLMs) bei der Verarbeitung langer, visuell komplexer Dokumente dient. Document Haystack umfasst Dokumente mit einer Länge von 5 bis 200 Seiten und integriert strategisch rein textbasierte oder multimodale Text+Image-„Nadeln“ an verschiedenen Tiefen innerhalb der Dokumente, um die Informationsabruffähigkeit von VLMs herauszufordern. Der Benchmark besteht aus 400 Dokumentvarianten und insgesamt 8.250 Fragen und wird durch ein objektives, automatisiertes Evaluierungsframework unterstützt. Wir beschreiben die Konstruktion und die Eigenschaften der Document Haystack-Datenmenge, präsentieren Ergebnisse prominenter VLMs und diskutieren mögliche Forschungspfade in diesem Bereich.