HyperAIHyperAI
vor 2 Monaten

Datensätze für die mehrstufige Leseverständnisüberprüfung über mehrere Dokumente konstruieren

Johannes Welbl; Pontus Stenetorp; Sebastian Riedel
Datensätze für die mehrstufige Leseverständnisüberprüfung über mehrere Dokumente konstruieren
Abstract

Die meisten Methoden zur Leseverständnis begrenzen sich auf Anfragen, die mit einem einzelnen Satz, Absatz oder Dokument beantwortet werden können. Die Fähigkeit der Modelle, getrennte Textausschnitte zu kombinieren, würde den Umfang der Maschinellen Verständnismethoden erweitern, aber es gibt derzeit keine Ressourcen, um diese Fähigkeit zu trainieren und zu testen. Wir schlagen eine neue Aufgabe vor, um die Entwicklung von Modellen für das Textverständnis über mehrere Dokumente hinweg zu fördern und die Grenzen bestehender Methoden zu untersuchen. In unserer Aufgabe lernt ein Modell, Beweise zu suchen und zu kombinieren – effektiv mehrstufige (auch: mehrschrittige) Inferenz durchzuführen. Wir entwickeln eine Methode zur Erstellung von Datensätzen für diese Aufgabe, ausgehend von einer Sammlung von Anfrage-Antwort-Paaren und thematisch verknüpften Dokumenten. Zwei Datensätze aus verschiedenen Bereichen werden generiert, und wir identifizieren potenzielle Fallen sowie Strategien zur deren Umgehung. Wir evaluieren zwei bisher vorgeschlagene wettbewerbsfähige Modelle und stellen fest, dass eines Informationen über mehrere Dokumente hinweg integrieren kann. Allerdings haben beide Modelle Schwierigkeiten bei der Auswahl relevanter Informationen, da ihre Leistung stark verbessert wird, wenn man ihnen garantiert relevante Dokumente zur Verfügung stellt. Obwohl die Modelle mehrere starke Baseline-Modelle übertreffen, erreicht ihre beste Genauigkeit 42,9 % im Vergleich zur menschlichen Leistung von 74,0 % – was einen großen Verbesserungspotential zeigt.

Datensätze für die mehrstufige Leseverständnisüberprüfung über mehrere Dokumente konstruieren | Neueste Forschungsarbeiten | HyperAI