Ernten und Verfeinern von Frage-Antwort-Paaren für unsupervisiertes QA

Frage-Antwort-Systeme (Question Answering, QA) haben dank der Verfügbarkeit großer Datensätze und der Wirksamkeit neuronalen Modelle erhebliche Fortschritte erzielt. In jüngster Zeit haben Forschungsarbeiten versucht, diese Erfolge auf Szenarien mit nur wenigen oder gar keinen gelabelten Daten zu übertragen. In dieser Arbeit stellen wir zwei Ansätze vor, um unsupervisierte QA-Systeme zu verbessern. Erstens sammeln wir lexikalisch und syntaktisch abweichende Fragen aus Wikipedia, um automatisch eine Korpus von Frage-Antwort-Paaren (RefQA genannt) zu erstellen. Zweitens nutzen wir das QA-Modell, um präzisere Antworten zu extrahieren, wodurch die Daten im RefQA iterativ verfeinert werden. Wir führen Experimente auf SQuAD 1.1 und NewsQA durch, indem wir BERT ohne Zugriff auf manuell annotierte Daten fine-tunen. Unser Ansatz übertrifft die bisherigen unsupervisierten Ansätze deutlich und erreicht eine Leistung, die mit frühen supervisierten Modellen konkurrieren kann. Zudem zeigen wir die Wirksamkeit unseres Ansatzes auch im Few-Shot-Lernsetting.