HyperAIHyperAI
il y a 16 jours

InfoXLM : Un cadre théorique de l'information pour le pré-entraînement des modèles linguistiques multilingues

Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, Ming Zhou
InfoXLM : Un cadre théorique de l'information pour le pré-entraînement des modèles linguistiques multilingues
Résumé

Dans ce travail, nous proposons un cadre fondé sur la théorie de l'information, qui formule l'entraînement préalable des modèles linguistiques multilingues comme une maximisation de l'information mutuelle entre des textes multilingues et multi-granulaires. Cette vision unifiée nous permet de mieux comprendre les méthodes existantes pour l'apprentissage de représentations multilingues. Plus important encore, inspirés par ce cadre, nous proposons une nouvelle tâche d'entraînement préalable basée sur l'apprentissage contrastif. Plus précisément, nous considérons une paire de phrases bilingues comme deux perspectives de la même signification, et nous encourageons leurs représentations encodées à être plus similaires que celles des exemples négatifs. En exploitant à la fois des corpus monolingues et des corpus parallèles, nous entraînons conjointement les tâches prétextes afin d'améliorer la transférabilité multilingue des modèles pré-entraînés. Les résultats expérimentaux sur plusieurs benchmarks montrent que notre approche obtient des performances nettement supérieures. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://aka.ms/infoxlm.

InfoXLM : Un cadre théorique de l'information pour le pré-entraînement des modèles linguistiques multilingues | Articles de recherche récents | HyperAI