IndicNLPSuite: Monolinguale Korpora, Evaluationsbenchmarks und vortrainierte mehrsprachige Sprachmodelle für indische Sprachen

In diesem Paper stellen wir NLP-Ressourcen für 11 wichtige indische Sprachen aus zwei Haupt-Sprachfamilien vor. Diese Ressourcen umfassen:(a) großskalige, monolinguale Korpora auf Satzebene, (b) vortrainierte Wort-Embeddings, (c) vortrainierte Sprachmodelle sowie (d) mehrere NLU-Evaluationsdatensätze (IndicGLUE-Benchmark). Die monolingualen Korpora enthalten insgesamt 8,8 Milliarden Tokens über alle 11 Sprachen sowie Indisch-Englisch und stammen hauptsächlich aus Nachrichten-Crawls. Die Wort-Embeddings basieren auf FastText und sind daher besonders gut geeignet, um die morphologische Komplexität indischer Sprachen zu bewältigen. Die vortrainierten Sprachmodelle basieren auf dem kompakten ALBERT-Modell. Schließlich haben wir den IndicGLUE-Benchmark für die NLU-Untersuchung indischer Sprachen zusammengestellt. Hierzu haben wir Datensätze für folgende Aufgaben erstellt: Artikel-Genre-Klassifikation, Headline-Vorhersage, Wikipedia-Section-Title-Vorhersage, Cloze-artige Multiple-Choice-Fragenstellung, Winograd-NLI und COPA. Außerdem integrieren wir öffentlich verfügbare Datensätze für bestimmte indische Sprachen zu Aufgaben wie Named Entity Recognition, cross-linguale Satzretrieval, Paraphrasenerkennung usw. Unsere Embeddings sind auf mehreren Aufgaben konkurrenzfähig oder sogar überlegen gegenüber bestehenden vortrainierten Embeddings. Wir hoffen, dass die Verfügbarkeit dieser Datensätze die Forschung im Bereich der indischen NLP beschleunigen wird, was das Potenzial hat, mehr als eine Milliarde Menschen zu beeinflussen. Zudem kann sie der Gemeinschaft helfen, Fortschritte in der NLP anhand einer vielfältigeren Palette von Sprachen zu evaluieren. Die Daten und Modelle sind unter https://indicnlp.ai4bharat.org verfügbar.