HyperAIHyperAI

Command Palette

Search for a command to run...

La translittération aide-t-elle le modèle linguistique multilingue ?

Ibraheem Muhammad Moosa Mahmud Elahi Akhter Ashfia Binte Habib

Résumé

La diversité des scripts pose un défi aux modèles linguistiques multilingues (MLLM) en réduisant le chevauchement lexical entre des langues étroitement apparentées. En conséquence, la translittération de langues étroitement apparentées mais utilisant des scripts différents vers un script commun pourrait améliorer les performances des MLLM sur les tâches en aval. Nous mesurons empiriquement l’impact de la translittération dans ce contexte. Nous nous concentrons particulièrement sur les langues indiennes, qui présentent la plus grande diversité de scripts au monde, et évaluons nos modèles sur le benchmark IndicGLUE. Nous appliquons le test U de Mann-Whitney afin de vérifier rigoureusement si l’effet de la translittération est statistiquement significatif. Nous constatons que la translittération bénéficie aux langues à faible ressource sans nuire aux langues à ressource plus élevée. Nous évaluons également la similarité des représentations cross-linguistiques des modèles à l’aide de l’alignement du noyau centré (centered kernel alignment) sur des phrases parallèles issues du jeu de données FLORES-101. Nous observons que, pour des phrases parallèles issues de langues différentes, le modèle basé sur la translittération apprend des représentations de phrases plus similaires.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp