HyperAIHyperAI
vor 17 Tagen

LIQUID: Ein Framework zur Generierung von List-Question-Answering-Datensätzen

Seongyun Lee, Hyunjae Kim, Jaewoo Kang
LIQUID: Ein Framework zur Generierung von List-Question-Answering-Datensätzen
Abstract

Frage-Antwort-(QA-)Modelle beruhen oft auf großskaligen Trainingsdatensätzen, was die Entwicklung eines Datengenerierungsframeworks erfordert, um die Kosten manueller Annotationen zu reduzieren. Obwohl mehrere neuere Studien darauf abzielen, synthetische Fragen mit Einzelabschnitten als Antworten zu generieren, existiert bislang keine Studie zur Erstellung von Listenfragen mit mehreren, nicht zusammenhängenden Antwortabschnitten. Um diese Lücke zu schließen, stellen wir LIQUID vor, ein automatisiertes Framework zur Generierung von Listen-QA-Datensätzen aus unbeschrifteten Korpora. Zunächst wandeln wir einen Textabschnitt aus Wikipedia oder PubMed in eine Zusammenfassung um und extrahieren dabei benannte Entitäten aus dem zusammengefassten Text als potenzielle Antworten. Dadurch können wir Antworten auswählen, die im Kontext semantisch korreliert sind, was sie besonders geeignet für die Konstruktion von Listenfragen macht. Anschließend erstellen wir Fragen mithilfe eines kommerziell erhältlichen Fragegenerators unter Verwendung der extrahierten Entitäten und des ursprünglichen Textes. Schließlich werden iteratives Filtern und Erweiterung der Antworten durchgeführt, um Genauigkeit und Vollständigkeit der Antworten sicherzustellen. Mittels unserer synthetischen Daten verbessern wir die Leistung der bisher besten Listen-QA-Modelle signifikant, wobei sich die Genauigkeits-F1-Scores um 5,0 auf MultiSpanQA, 1,9 auf Quoref und durchschnittlich 2,8 über drei BioASQ-Benchmark-Aufgaben erhöhen.