End-to-End-Training eines Multi-Document-Lesers und -Retrievers für die offene Domänen-Fragebeantwortung

Wir präsentieren eine end-to-end differenzierbare Trainingsmethode für abfrageverstärkte, offene Domänen-Frage-Antwort-Systeme, die Informationen aus mehreren abgerufenen Dokumenten bei der Antwortgenerierung kombinieren. Wir modellieren die Retrieval-Entscheidungen als latente Variablen über Mengen relevanter Dokumente. Da die Marginalisierung über Mengen abgerufener Dokumente rechnerisch schwierig ist, approximieren wir dies mittels eines Erwartung-Maximierung-Algorithmus (Expectation-Maximization, EM). Wir schätzen iterativ den Wert unserer latenten Variable (die Menge relevanter Dokumente für eine gegebene Frage) und nutzen diese Schätzung anschließend, um die Parameter des Retrievers und des Readers zu aktualisieren. Wir vermuten, dass ein solches end-to-end-Training die Rückführung von Trainingssignalen vom Reader zum Retriever effizienter ermöglicht als herkömmliche stufenweise Trainingsansätze. Dies führt zu einem Retriever, der für eine Frage relevantere Dokumente auswählt, und zu einem Reader, der auf genauerer Dokumentbasis trainiert wird, um präzisere Antworten zu generieren. Experimente an drei Benchmark-Datensätzen zeigen, dass unsere vorgeschlagene Methode alle bisherigen Ansätze vergleichbarer Größe um 2–3 Prozentpunkte absoluten Exact-Match-Wert übertrifft und neue State-of-the-Art-Ergebnisse erzielt. Unsere Ergebnisse demonstrieren zudem die Machbarkeit des Lernens, relevante Dokumente zu finden, um die Antwortgenerierung zu verbessern, ohne explizite Überwachung der Retrieval-Entscheidungen zu benötigen.