UQuAD1.0: Entwicklung eines Urdu-Frage-Antwort-Datensatzes für maschinelles Leseverstehen

In den letzten Jahren hat die Low-Resource-Maschinenleseverstehens (MRC) erhebliche Fortschritte gemacht, wobei Modelle beachtliche Leistungen auf verschiedenen Sprachdatensätzen erzielt haben. Dennoch wurden bisher keine dieser Modelle speziell für die Urdu-Sprache angepasst. In dieser Arbeit untersuchen wir die semi-automatisierte Erstellung des Urdu-Question-Answering-Datensatzes (UQuAD1.0), indem maschinell übersetzte SQuAD-Daten mit menschlich generierten Beispielen kombiniert werden, die aus Wikipedia-Artikeln und Urdu-RC-Arbeitsblättern aus Cambridge-O-Level-Büchern stammen. UQuAD1.0 ist ein großskaliger Urdu-Datensatz, der extraktiven Maschinenleseverstehensaufgaben dienen soll und aus 49.000 Frage-Antwort-Paaren in der Struktur Frage, Passage und Antwort besteht. Bei UQuAD1.0 wurden 45.000 QA-Paare durch maschinelle Übersetzung des ursprünglichen SQuAD1.0 generiert, während etwa 4.000 Paare über Crowdsourcing gewonnen wurden. In dieser Studie werden zwei Arten von MRC-Modellen eingesetzt: ein regelbasierter Baseline-Modell sowie fortschrittliche Transformer-basierte Modelle. Wir haben jedoch festgestellt, dass die letzteren die anderen deutlich übertrumpfen; daher haben wir uns entschieden, uns ausschließlich auf Transformer-basierte Architekturen zu konzentrieren. Mit XLMRoBERTa und multilingualem BERT erzielen wir F1-Scores von jeweils 0,66 und 0,63.