Befinden wir uns auf dem richtigen Weg zur Bewertung von Dokumentenabruf-erweiterten Generierung?

Retrieval-Augmented Generation-Systeme (RAG), die Multimodale Große Sprachmodelle (MLLMs) einsetzen, zeigen großes Potenzial für die Verarbeitung komplexer Dokumente. Ihre Entwicklung wird jedoch kritisch durch unzureichende Evaluierung behindert. Aktuelle Benchmarks konzentrieren sich oft auf einzelne Komponenten von Dokument-RAG-Systemen und nutzen synthetische Daten mit unvollständigen Ground-Truth- und Beweislabels, wodurch sie die tatsächlichen Herausforderungen und Engpässe in der Praxis nicht adäquat widerspiegeln können. Um diese Limitationen zu überwinden, stellen wir Double-Bench vor: ein neuartiges, großskaliges, mehrsprachiges und multimodales Evaluierungssystem, das eine fein granulare Beurteilung jeder Komponente innerhalb von Dokument-RAG-Systemen ermöglicht. Double-Bench umfasst 3.276 Dokumente (72.880 Seiten) und 5.168 Ein- und Mehrschritt-Abfragen in sechs Sprachen und vier Dokumententypen, unterstützt dynamisch aktualisierte Datenströme zur Vermeidung von Datenkontamination. Die Abfragen basieren auf umfassend durchsuchten Beweis-Seiten und wurden durch menschliche Experten validiert, um höchstmögliche Qualität und Vollständigkeit sicherzustellen. Unsere umfassenden Experimente mit neun state-of-the-art-Embedding-Modellen, vier MLLMs und vier end-to-end-Dokument-RAG-Frameworks zeigen, dass sich die Lücke zwischen Text- und Visuellen Embedding-Modellen verengt – was die Notwendigkeit eines stärkeren Dokumentenretrieval-Modells unterstreicht. Zudem offenbaren unsere Ergebnisse das Problem der Überzeugtheit in aktuellen Dokument-RAG-Frameworks, die tendenziell Antworten liefern, selbst wenn keine Beweisgrundlage vorliegt. Wir hoffen, dass unser vollständig Open-Source-Double-Bench eine rigorose Grundlage für zukünftige Forschung an fortschrittlichen Dokument-RAG-Systemen liefert. Wir planen, zeitnah relevante Korpora zu erfassen und jährlich neue Benchmarks veröffentlichen.