il y a 8 mois

Résumé

Plusieurs articles récents ont publié de bonnes solutions pour l'identification des langues (LID) pour environ 300 langues à ressources élevées et moyennes. Cependant, il n'existe aucun système d'identification des langues qui (i) couvre un large éventail de langues à ressources limitées, (ii) soit rigoureusement évalué et fiable, et (iii) efficace et facile à utiliser. Ici, nous publions GlotLID-M, un modèle d'identification des langues qui répond aux critères de couverture étendue, fiabilité et efficacité. Il identifie 1665 langues, ce qui représente une augmentation considérable de la couverture par rapport aux travaux antérieurs. Dans nos expériences, GlotLID-M surpasse quatre modèles de référence (CLD3, FT176, OpenLID et NLLB) en termes d'équilibre entre le score F1 et le taux de faux positifs (FPR). Nous analysons les défis uniques que pose l'identification des langues à ressources limitées : métadonnées incorrectes des corpus, contamination par les langues à ressources élevées, difficulté à séparer les langues étroitement apparentées, gestion des macrolangues par rapport aux variétés linguistiques et données bruyantes en général. Nous espérons que l'intégration de GlotLID-M dans les pipelines de création de jeux de données améliorera la qualité et renforcera l'accessibilité des technologies de traitement du langage naturel (NLP) pour les langues et cultures à ressources limitées. Le modèle GlotLID-M (y compris les versions futures), le code source et la liste des sources de données sont disponibles : https://github.com/cisnlp/GlotLID.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Du Langage Naturel

Jeu De Données

Benchmarks

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Traitement Du Langage Naturel

Jeu De Données

Benchmarks

Infrastructure D'ia

Traitement Du Langage Naturel

Tâche

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

GlotLID : Identification de la langue pour les langues à ressources limitées | Articles | HyperAI

Command Palette

GlotLID : Identification de la langue pour les langues à ressources limitées

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GlotLID : Identification de la langue pour les langues à ressources limitées

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

GlotLID : Identification de la langue pour les langues à ressources limitées

Amir Hossein Kargaran Ayyoob Imani François Yvon Hinrich Schütze

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters