GlotLID : Identification de la langue pour les langues à ressources limitées

Plusieurs articles récents ont publié de bonnes solutions pour l'identification des langues (LID) pour environ 300 langues à ressources élevées et moyennes. Cependant, il n'existe aucun système d'identification des langues qui (i) couvre un large éventail de langues à ressources limitées, (ii) soit rigoureusement évalué et fiable, et (iii) efficace et facile à utiliser. Ici, nous publions GlotLID-M, un modèle d'identification des langues qui répond aux critères de couverture étendue, fiabilité et efficacité. Il identifie 1665 langues, ce qui représente une augmentation considérable de la couverture par rapport aux travaux antérieurs. Dans nos expériences, GlotLID-M surpasse quatre modèles de référence (CLD3, FT176, OpenLID et NLLB) en termes d'équilibre entre le score F1 et le taux de faux positifs (FPR). Nous analysons les défis uniques que pose l'identification des langues à ressources limitées : métadonnées incorrectes des corpus, contamination par les langues à ressources élevées, difficulté à séparer les langues étroitement apparentées, gestion des macrolangues par rapport aux variétés linguistiques et données bruyantes en général. Nous espérons que l'intégration de GlotLID-M dans les pipelines de création de jeux de données améliorera la qualité et renforcera l'accessibilité des technologies de traitement du langage naturel (NLP) pour les langues et cultures à ressources limitées. Le modèle GlotLID-M (y compris les versions futures), le code source et la liste des sources de données sont disponibles : https://github.com/cisnlp/GlotLID.