Natural Questions: Eine Benchmark-Aufgabe für die Forschung im Bereich Fragebeantwortung
Wir stellen die Natural Questions-Korpus-Datenmenge vor, ein Frage-Antwort-Datensatz. Die Fragen bestehen aus echten, anonymisierten, aggregierten Abfragen, die an die Google-Suchmaschine gestellt wurden. Ein Annotator erhält eine Frage zusammen mit einer Wikipedia-Seite aus den ersten fünf Suchergebnissen und annotiert eine lange Antwort (typischerweise einen Absatz) sowie eine kurze Antwort (eine oder mehrere Entitäten), sofern diese auf der Seite vorhanden sind, oder markiert „null“, falls keine lange oder kurze Antwort vorliegt. Die öffentliche Veröffentlichung umfasst 307.373 Trainingsbeispiele mit jeweils einer Annotation, 7.830 Beispiele mit fünffacher Annotation für die Entwicklungsdaten und weitere 7.842 Beispiele, die fünffach annotiert und als Testdaten abgesichert wurden. Wir präsentieren Experimente zur Validierung der Datenqualität. Zudem beschreiben wir eine Analyse von 25-facher Annotation an 302 Beispielen, die Einblicke in die menschliche Variabilität bei der Annotation liefert. Wir führen robuste Metriken zur Bewertung von Frage-Antwort-Systemen ein, demonstrieren hohe menschliche Obergrenzen für diese Metriken und legen Baseline-Ergebnisse mithilfe von anspruchsvollen Methoden aus der verwandten Literatur vor.