HyperAIHyperAI

Command Palette

Search for a command to run...

LIQUID: Ein Framework zur Generierung von List-Question-Answering-Datensätzen

Seongyun Lee Hyunjae Kim Jaewoo Kang

Zusammenfassung

Frage-Antwort-(QA-)Modelle beruhen oft auf großskaligen Trainingsdatensätzen, was die Entwicklung eines Datengenerierungsframeworks erfordert, um die Kosten manueller Annotationen zu reduzieren. Obwohl mehrere neuere Studien darauf abzielen, synthetische Fragen mit Einzelabschnitten als Antworten zu generieren, existiert bislang keine Studie zur Erstellung von Listenfragen mit mehreren, nicht zusammenhängenden Antwortabschnitten. Um diese Lücke zu schließen, stellen wir LIQUID vor, ein automatisiertes Framework zur Generierung von Listen-QA-Datensätzen aus unbeschrifteten Korpora. Zunächst wandeln wir einen Textabschnitt aus Wikipedia oder PubMed in eine Zusammenfassung um und extrahieren dabei benannte Entitäten aus dem zusammengefassten Text als potenzielle Antworten. Dadurch können wir Antworten auswählen, die im Kontext semantisch korreliert sind, was sie besonders geeignet für die Konstruktion von Listenfragen macht. Anschließend erstellen wir Fragen mithilfe eines kommerziell erhältlichen Fragegenerators unter Verwendung der extrahierten Entitäten und des ursprünglichen Textes. Schließlich werden iteratives Filtern und Erweiterung der Antworten durchgeführt, um Genauigkeit und Vollständigkeit der Antworten sicherzustellen. Mittels unserer synthetischen Daten verbessern wir die Leistung der bisher besten Listen-QA-Modelle signifikant, wobei sich die Genauigkeits-F1-Scores um 5,0 auf MultiSpanQA, 1,9 auf Quoref und durchschnittlich 2,8 über drei BioASQ-Benchmark-Aufgaben erhöhen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LIQUID: Ein Framework zur Generierung von List-Question-Answering-Datensätzen | Paper | HyperAI