BEIR: Ein heterogener Benchmark zur Zero-shot-Evaluierung von Information Retrieval-Modellen

Bestehende neuronale Informationsabfragemodelle wurden oft in homogenen und engen Umgebungen untersucht, was die Einsicht in ihre Fähigkeit zur Generalisierung außerhalb der Trainingsverteilung (out-of-distribution, OOD) erheblich eingeschränkt hat. Um diesem Problem entgegenzuwirken und Forschern eine umfassende Bewertung der Wirksamkeit ihrer Modelle zu ermöglichen, stellen wir Benchmarking-IR (BEIR) vor – einen robusten und heterogenen Evaluationsbenchmark für Informationsabfrage. Wir nutzen eine sorgfältig ausgewählte Sammlung von 18 öffentlich verfügbaren Datensätzen aus unterschiedlichen Aufgaben und Domänen des Textabfragens und evaluieren zehn state-of-the-art-Abfragemodelle, darunter lexikalische, spärliche, dichte, späte Interaktions- sowie Nachbearbeitungsarchitekturen, auf dem BEIR-Benchmark. Unsere Ergebnisse zeigen, dass BM25 ein robuster Baseline-Algorithmus ist und Modelle, die auf Nachbearbeitung oder späte Interaktion basieren, im Durchschnitt die besten Zero-shot-Leistungen erzielen – allerdings zu erheblichem Rechenaufwand. Im Gegensatz dazu sind dichte und spärliche Abfragemodelle rechnerisch effizienter, erzielen aber häufig schlechtere Ergebnisse als andere Ansätze, was den erheblichen Verbesserungsbedarf in Bezug auf ihre Generalisierungsfähigkeit unterstreicht. Wir hoffen, dass dieses Framework eine bessere Bewertung und Vertiefung des Verständnisses bestehender Abfragemodelle ermöglicht und zukünftig zur Beschleunigung der Entwicklung robusterer und allgemeinerer Systeme beiträgt. BEIR ist öffentlich unter https://github.com/UKPLab/beir verfügbar.