La translittération aide-t-elle le modèle linguistique multilingue ?

La diversité des scripts pose un défi aux modèles linguistiques multilingues (MLLM) en réduisant le chevauchement lexical entre des langues étroitement apparentées. En conséquence, la translittération de langues étroitement apparentées mais utilisant des scripts différents vers un script commun pourrait améliorer les performances des MLLM sur les tâches en aval. Nous mesurons empiriquement l’impact de la translittération dans ce contexte. Nous nous concentrons particulièrement sur les langues indiennes, qui présentent la plus grande diversité de scripts au monde, et évaluons nos modèles sur le benchmark IndicGLUE. Nous appliquons le test U de Mann-Whitney afin de vérifier rigoureusement si l’effet de la translittération est statistiquement significatif. Nous constatons que la translittération bénéficie aux langues à faible ressource sans nuire aux langues à ressource plus élevée. Nous évaluons également la similarité des représentations cross-linguistiques des modèles à l’aide de l’alignement du noyau centré (centered kernel alignment) sur des phrases parallèles issues du jeu de données FLORES-101. Nous observons que, pour des phrases parallèles issues de langues différentes, le modèle basé sur la translittération apprend des représentations de phrases plus similaires.