R2-D2: Ein modulares Baseline für question answering im offenen Bereich

Diese Arbeit stellt einen neuartigen vierstufigen Open-Domain-QA-Pipeline-Rahmenwerk R2-D2 (Rank twice, reaD twice) vor. Die Pipeline besteht aus einem Retriever, einem Passage-Reranker, einem extraktiven Leser, einem generativen Leser sowie einem Aggregationsmechanismus, der die endgültige Vorhersage aus allen Komponenten des Systems generiert. Wir zeigen die Stärke des Ansatzes an drei Open-Domain-QA-Datensätzen: NaturalQuestions, TriviaQA und EfficientQA, wobei die Leistung auf den ersten beiden Datensätzen die bisherigen State-of-the-Art-Ergebnisse übertreffen. Unsere Analyse zeigt: (i) Die Kombination aus extraktivem und generativem Leser führt zu absoluten Verbesserungen von bis zu 5 Punkten im Exact-Match-Maß und ist mindestens doppelt so effektiv wie das Posterior-Averaging-Ensemble derselben Modelle mit unterschiedlichen Parametern, (ii) Ein extraktiver Leser mit weniger Parametern kann die Leistung eines generativen Lesers auf extraktiven QA-Datensätzen erreichen.