HyperAIHyperAI
il y a 17 jours

BERT, mBERT ou BiBERT ? Une étude sur les embeddings contextualisés pour la traduction automatique neurale

Haoran Xu, Benjamin Van Durme, Kenton Murray
BERT, mBERT ou BiBERT ? Une étude sur les embeddings contextualisés pour la traduction automatique neurale
Résumé

Le succès des encodeurs bidirectionnels basés sur les modèles de langage masqués, tels que BERT, sur de nombreuses tâches de traitement du langage naturel a incité les chercheurs à explorer l’intégration de ces modèles pré-entraînés dans les systèmes de traduction automatique neurale (NMT). Toutefois, les méthodes proposées pour intégrer ces modèles pré-entraînés sont complexes et se concentrent principalement sur BERT, sans toutefois comparer l’impact potentiel d’autres modèles pré-entraînés sur la performance de traduction. Dans ce travail, nous démontrons qu’il suffit d’utiliser simplement la sortie (les embeddings contextualisés) d’un modèle pré-entraîné bilingue adapté et pertinent — que nous appelons BiBERT — comme entrée de l’encodeur NMT afin d’atteindre des performances de traduction de pointe. En outre, nous proposons une approche stochastique de sélection de couche ainsi qu’un concept de modèle de traduction bidirectionnel afin d’assurer une utilisation optimale des embeddings contextualisés. Sans recourir à la traduction réciproque (back translation), nos meilleurs modèles atteignent des scores BLEU de 30,45 pour la tâche En→De et 38,61 pour De→En sur le jeu de données IWSLT’14, ainsi que 31,26 pour En→De et 34,94 pour De→En sur le jeu de données WMT’14, dépassant ainsi tous les résultats publiés jusqu’à présent.

BERT, mBERT ou BiBERT ? Une étude sur les embeddings contextualisés pour la traduction automatique neurale | Articles de recherche récents | HyperAI