IndicNLPSuite : Corpora monolingues, benchmarks d'évaluation et modèles linguistiques multilingues pré-entraînés pour les langues indiennes

Dans cet article, nous présentons des ressources de traitement automatique du langage (NLP) pour 11 langues indiennes majeures appartenant à deux grandes familles linguistiques. Ces ressources comprennent :(a) des corpos monolingues à grande échelle au niveau des phrases,(b) des embeddings de mots pré-entraînés,(c) des modèles linguistiques pré-entraînés,(d) ainsi que plusieurs jeux de données d’évaluation pour la compréhension linguistique (benchmark IndicGLUE).Les corpos monolingues regroupent au total 8,8 milliards de tokens répartis entre les 11 langues indiennes et l’anglais indien, principalement extraits de crawls de journaux. Les embeddings de mots sont fondés sur FastText, ce qui les rend particulièrement adaptés à la gestion de la complexité morphologique des langues indiennes. Les modèles linguistiques pré-entraînés reposent sur l’architecture compacte ALBERT. En outre, nous avons établi le benchmark IndicGLUE pour l’évaluation de la compréhension linguistique des langues indiennes. À cette fin, nous avons créé des jeux de données pour les tâches suivantes : classification du genre d’article, prédiction de titre, prédiction du titre de section Wikipedia, question réponse multiple à style cloze, NLI de type Winograd et COPA. Nous incluons également des jeux de données publiques disponibles pour certaines langues indiennes, notamment pour des tâches telles que la reconnaissance d’entités nommées, la récupération de phrases multilingues, la détection de paraphrases, etc. Nos embeddings se révèlent compétitifs ou supérieurs aux embeddings pré-entraînés existants sur plusieurs tâches. Nous espérons que la mise à disposition de ces données accélérera la recherche en NLP pour les langues indiennes, un domaine ayant le potentiel d’avoir un impact sur plus d’un milliard de personnes. Elle permettra également à la communauté scientifique d’évaluer les progrès du NLP sur un éventail plus diversifié de langues. Les données et modèles sont disponibles à l’adresse suivante : https://indicnlp.ai4bharat.org.