Hürden für den Fortschritt in der Long-form-Fragebeantwortung

Die Aufgabe des Long-Form Question Answering (LFQA) besteht darin, Dokumente zu retrieven, die im Zusammenhang mit einer gegebenen Frage stehen, und diese zur Generierung einer paragrafenlangen Antwort zu nutzen. Obwohl in letzter Zeit zahlreiche Modelle für LFQA vorgestellt wurden, zeigen wir in diesem Paper, dass die Aufgabenformulierung grundlegende Herausforderungen im Bereich der Evaluation und Datensatzgenerierung mit sich bringt, die derzeit eine sinnvolle Modellentwicklung verhindern. Um diese Probleme zu veranschaulichen, entwerfen wir zunächst ein neues System, das auf spärlicher Aufmerksamkeit und kontrastivem Retrieval-Lernen basiert und die bisher beste Leistung auf dem ELI5-LFQA-Datensatz erzielt. Obwohl unser System die öffentliche Leaderboard-Rangliste anführt, zeigt eine detaillierte Analyse mehrere besorgniserregende Trends: (1) Die von unserem System generierten Antworten sind nicht tatsächlich in den von ihm retrieven Dokumenten verankert; (2) Der ELI5-Datensatz weist erhebliche Überlappungen zwischen Trainings- und Validierungsdaten auf, da mindestens 81 % der Validierungsfragen in umformulierter Form im Trainingsset vorkommen; (3) ROUGE-L ist kein informativer Maßstab für die Qualität generierter Antworten und lässt sich leicht manipulieren; und (4) Menschliche Bewertungen, die für andere Textgenerierungsaufgaben verwendet werden, sind für LFQA nicht zuverlässig. Wir bieten Vorschläge zur Milderung jeder dieser Probleme an, die wir hoffen, werden zu einer strengeren Forschung im Bereich LFQA und zu nachhaltigem Fortschritt in Zukunft führen.