KILT: Eine Benchmark für wissensintensive Sprachaufgaben

Herausfordernde Aufgaben wie offene Domänen-Fragebeantwortung, Faktenüberprüfung, Slot-Füllung und Entitätsverknüpfung erfordern den Zugriff auf große externe Wissensquellen. Während einige Modelle auf einzelnen Aufgaben gut abschneiden, ist die Entwicklung allgemeiner Modelle schwierig, da jede Aufgabe möglicherweise eine rechenintensive Indizierung spezifischer Wissensquellen sowie eine dedizierte Infrastruktur erfordert. Um die Forschung an Modellen zu beschleunigen, die auf spezifische Informationen in großen Textressourcen bedingt sind, präsentieren wir einen Benchmark für wissensintensive Sprachaufgaben (KILT). Alle Aufgaben in KILT basieren auf derselben Version von Wikipedia, wodurch die Entwicklungszyklen durch die Wiederverwendung von Komponenten verkürzt und die Forschung zu aufgabenunabhängigen Speicherarchitekturen beschleunigt wird. Wir testen sowohl aufgabenbezogene als auch allgemeine Baseline-Modelle und bewerten nicht nur die Leistung in den jeweiligen Aufgaben, sondern auch die Fähigkeit der Modelle, die Herkunft ihrer Antworten nachzuweisen. Wir stellen fest, dass ein gemeinsamer dichter Vektorindex in Kombination mit einem Seq2Seq-Modell eine starke Baseline darstellt, die für Faktenüberprüfung, offene Domänen-Fragebeantwortung und Dialogsysteme bessere Ergebnisse liefert als spezifisch angepasste Ansätze, und bei Entitätsverknüpfung sowie Slot-Füllung konkurrenzfähige Ergebnisse erzielt, indem sie mehrdeutige Texte aufklärt. Die KILT-Daten und -Code sind unter https://github.com/facebookresearch/KILT verfügbar.