HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-M : Représentation multilingue améliorée par l'alignement des sémantiques multilingues à l'aide de corpus monolingues

Xuan Ouyang Shuohuan Wang Chao Pang Yu Sun Hao Tian Hua Wu Haifeng Wang

Résumé

Des études récentes ont démontré que les modèles pré-entraînés multilingues atteignent des performances remarquables sur diverses tâches multilingues en aval. Cette amélioration s’explique par l’apprentissage à partir d’un volume important de corpus monolingues et de corpus parallèles. Bien que l’on reconnaisse généralement que les corpus parallèles jouent un rôle essentiel dans l’amélioration des performances des modèles, les méthodes existantes sont souvent limitées par la taille de ces corpus parallèles, en particulier pour les langues à faible ressource. Dans ce papier, nous proposons ERNIE-M, une nouvelle méthode d’entraînement qui incite le modèle à aligner les représentations de plusieurs langues à l’aide de corpus monolingues, afin de surmonter cette contrainte liée à la taille des corpus parallèles. Notre idée centrale consiste à intégrer la traduction réciproque (back-translation) dans le processus de pré-entraînement. En générant des paires de phrases pseudo-parallèles à partir de corpus monolingues, nous permettons au modèle d’apprendre des alignements sémantiques entre différentes langues, renforçant ainsi la modélisation sémantique des modèles multilingues. Les résultats expérimentaux montrent que ERNIE-M surpasser les modèles multilingues existants et atteint de nouveaux records d’état de l’art sur diverses tâches multilingues en aval.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp