Fantastische Fragen und wo man sie findet: FairytaleQA – Ein authentisches Dataset zur Erzählkomprehension

Frage-Antwort-Systeme (QA) stellen eine grundlegende Methode dar, um die Fähigkeit zur Erzählkomprehension sowohl bei Maschinen als auch bei jungen Kindern zu fördern und zu bewerten. Dennoch existiert ein Mangel an hochwertigen QA-Datensätzen, die gezielt für diesen Zweck konzipiert wurden. Insbesondere unterscheiden bestehende Datensätze selten fein abgestufte Lesefähigkeiten, wie etwa das Verständnis verschiedener erzählerischer Elemente. Ausgehend von Forschungsergebnissen im Bereich des Leselernens führen wir FairytaleQA ein – einen Datensatz, der sich auf die Erzählkomprehension von Kindern im Kindergartenalter bis zur 8. Klasse konzentriert. FairytaleQA wurde von pädagogischen Experten auf der Grundlage eines evidenzbasierten theoretischen Rahmens erstellt und umfasst 10.580 explizite und implizite Fragen, die aus 278 kindgerechten Geschichten stammen und sieben verschiedene Arten erzählerischer Elemente oder Beziehungen abdecken. Unser Datensatz ist in zweifacher Hinsicht von großem Wert: Erstens haben wir bestehende QA-Modelle auf unserem Datensatz getestet und bestätigt, dass die Annotation hilfreich ist, um die fein abgestuften Lernfähigkeiten der Modelle zu bewerten. Zweitens unterstützt der Datensatz die Aufgabenstellung der Frageerzeugung (Question Generation, QG) im Bildungsbereich. Durch Benchmarking mit QG-Modellen zeigen wir, dass ein auf FairytaleQA trainiertes QG-Modell in der Lage ist, qualitativ hochwertige und vielfältigere Fragen zu generieren.