il y a 16 jours

ERNIE-M : Représentation multilingue améliorée par l'alignement des sémantiques multilingues à l'aide de corpus monolingues

Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

Résumé

Des études récentes ont démontré que les modèles pré-entraînés multilingues atteignent des performances remarquables sur diverses tâches multilingues en aval. Cette amélioration s’explique par l’apprentissage à partir d’un volume important de corpus monolingues et de corpus parallèles. Bien que l’on reconnaisse généralement que les corpus parallèles jouent un rôle essentiel dans l’amélioration des performances des modèles, les méthodes existantes sont souvent limitées par la taille de ces corpus parallèles, en particulier pour les langues à faible ressource. Dans ce papier, nous proposons ERNIE-M, une nouvelle méthode d’entraînement qui incite le modèle à aligner les représentations de plusieurs langues à l’aide de corpus monolingues, afin de surmonter cette contrainte liée à la taille des corpus parallèles. Notre idée centrale consiste à intégrer la traduction réciproque (back-translation) dans le processus de pré-entraînement. En générant des paires de phrases pseudo-parallèles à partir de corpus monolingues, nous permettons au modèle d’apprendre des alignements sémantiques entre différentes langues, renforçant ainsi la modélisation sémantique des modèles multilingues. Les résultats expérimentaux montrent que ERNIE-M surpasser les modèles multilingues existants et atteint de nouveaux records d’état de l’art sur diverses tâches multilingues en aval.