HyperAIHyperAI

Command Palette

Search for a command to run...

GlotLID : Identification de la langue pour les langues à ressources limitées

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

Résumé

Plusieurs articles récents ont publié de bonnes solutions pour l'identification des langues (LID) pour environ 300 langues à ressources élevées et moyennes. Cependant, il n'existe aucun système d'identification des langues qui (i) couvre un large éventail de langues à ressources limitées, (ii) soit rigoureusement évalué et fiable, et (iii) efficace et facile à utiliser. Ici, nous publions GlotLID-M, un modèle d'identification des langues qui répond aux critères de couverture étendue, fiabilité et efficacité. Il identifie 1665 langues, ce qui représente une augmentation considérable de la couverture par rapport aux travaux antérieurs. Dans nos expériences, GlotLID-M surpasse quatre modèles de référence (CLD3, FT176, OpenLID et NLLB) en termes d'équilibre entre le score F1 et le taux de faux positifs (FPR). Nous analysons les défis uniques que pose l'identification des langues à ressources limitées : métadonnées incorrectes des corpus, contamination par les langues à ressources élevées, difficulté à séparer les langues étroitement apparentées, gestion des macrolangues par rapport aux variétés linguistiques et données bruyantes en général. Nous espérons que l'intégration de GlotLID-M dans les pipelines de création de jeux de données améliorera la qualité et renforcera l'accessibilité des technologies de traitement du langage naturel (NLP) pour les langues et cultures à ressources limitées. Le modèle GlotLID-M (y compris les versions futures), le code source et la liste des sources de données sont disponibles : https://github.com/cisnlp/GlotLID.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GlotLID : Identification de la langue pour les langues à ressources limitées | Articles | HyperAI