HyperAIHyperAI

Command Palette

Search for a command to run...

UQuAD1.0: Entwicklung eines Urdu-Frage-Antwort-Datensatzes für maschinelles Leseverstehen

Samreen Kazi Shakeel Khoja

Zusammenfassung

In den letzten Jahren hat die Low-Resource-Maschinenleseverstehens (MRC) erhebliche Fortschritte gemacht, wobei Modelle beachtliche Leistungen auf verschiedenen Sprachdatensätzen erzielt haben. Dennoch wurden bisher keine dieser Modelle speziell für die Urdu-Sprache angepasst. In dieser Arbeit untersuchen wir die semi-automatisierte Erstellung des Urdu-Question-Answering-Datensatzes (UQuAD1.0), indem maschinell übersetzte SQuAD-Daten mit menschlich generierten Beispielen kombiniert werden, die aus Wikipedia-Artikeln und Urdu-RC-Arbeitsblättern aus Cambridge-O-Level-Büchern stammen. UQuAD1.0 ist ein großskaliger Urdu-Datensatz, der extraktiven Maschinenleseverstehensaufgaben dienen soll und aus 49.000 Frage-Antwort-Paaren in der Struktur Frage, Passage und Antwort besteht. Bei UQuAD1.0 wurden 45.000 QA-Paare durch maschinelle Übersetzung des ursprünglichen SQuAD1.0 generiert, während etwa 4.000 Paare über Crowdsourcing gewonnen wurden. In dieser Studie werden zwei Arten von MRC-Modellen eingesetzt: ein regelbasierter Baseline-Modell sowie fortschrittliche Transformer-basierte Modelle. Wir haben jedoch festgestellt, dass die letzteren die anderen deutlich übertrumpfen; daher haben wir uns entschieden, uns ausschließlich auf Transformer-basierte Architekturen zu konzentrieren. Mit XLMRoBERTa und multilingualem BERT erzielen wir F1-Scores von jeweils 0,66 und 0,63.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UQuAD1.0: Entwicklung eines Urdu-Frage-Antwort-Datensatzes für maschinelles Leseverstehen | Paper | HyperAI