Lernen, Fragen zu generieren, indem man antwortenthaltene Sätze wiederherstellt

Um ein Frage-Antwort-Modell auf Basis von maschinellem Leseverständnis (Machine Reading Comprehension, MRC) zu trainieren, ist ein erheblicher Aufwand erforderlich, um annotierte Trainingsdaten zu erstellen, die aus Fragen und ihren Antworten in Bezug auf gegebene Kontexte bestehen. Um dieses Problem zu mildern, konzentrierte sich jüngere Forschung darauf, Fragen synthetisch aus einem gegebenen Kontext und einer annotierten (oder generierten) Antwort zu erzeugen, indem ein zusätzlicher generativer Modell trainiert wird, das zur Erweiterung der Trainingsdaten genutzt werden kann. In Anbetracht dieser Forschungsrichtung stellen wir einen neuartigen Vortrainingsansatz vor, der lernt, kontextreich zu generierende Fragen durch die Wiederherstellung von Antwort-enthaltenden Sätzen zu erzeugen. Unser Ansatz besteht aus zwei innovativen Komponenten: (1) dynamische Bestimmung von K Antworten aus einem gegebenen Dokument und (2) Vortrainieren des Fragegenerators auf der Aufgabe, den satz, der die Antwort enthält, zu generieren. Wir evaluieren unsere Methode im Vergleich zu bestehenden Ansätzen hinsichtlich der Qualität der generierten Fragen sowie der Genauigkeit des nachträglich feinabgestimmten MRC-Modells, das auf Daten trainiert wurde, die durch unseren Ansatz synthetisch generiert wurden. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Fähigkeit bestehender Modelle wie UniLM konsistent verbessert und auf MS MARCO und NewsQA state-of-the-art Ergebnisse erzielt, während die Leistung auf SQuAD mit den derzeit besten Ansätzen vergleichbar ist. Darüber hinaus zeigen wir, dass die durch unseren Ansatz synthetisch generierten Daten dazu beitragen, die Genauigkeit des nachgeschalteten MRC-Modells über eine breite Palette von Datensätzen – wie SQuAD-v1.1, v2.0 und KorQuAD – signifikant zu steigern, ohne dass die bestehenden MRC-Modelle modifiziert werden müssen. Zudem unterstreichen unsere Experimente, dass unser Verfahren insbesondere dann hervorsticht, wenn nur eine begrenzte Menge an Trainingsdaten zur Verfügung steht, sowohl im Vortrainings- als auch im nachgeschalteten MRC-Trainingskontext.