il y a 16 jours

Intégration de BERT dans la traduction automatique neurale

Jinhua Zhu, Yingce Xia, Lijun Wu, Di He, Tao Qin, Wengang Zhou, Houqiang Li, Tie-Yan Liu

Résumé

Le modèle BERT, récemment proposé, a démontré une grande efficacité sur diverses tâches de compréhension du langage naturel, telles que la classification de texte, la compréhension de lecture, etc. Toutefois, l’application efficace de BERT à la traduction automatique neuronale (NMT) reste insuffisamment explorée. Bien que BERT soit généralement utilisé pour le fine-tuning plutôt que pour fournir des embeddings contextuels dans les tâches de compréhension du langage, nos explorations préliminaires montrent que son utilisation comme source d’embeddings contextuels est plus performante que le fine-tuning dans le cadre de la NMT. Cela nous a motivés à approfondir la manière dont BERT peut être mieux exploité dans la NMT selon cette voie. Nous proposons un nouvel algorithme nommé modèle fusionné BERT, dans lequel nous utilisons d’abord BERT pour extraire des représentations d’une séquence d’entrée, puis fusionnons ces représentations à chaque couche de l’encodeur et du décodeur du modèle NMT via des mécanismes d’attention. Nous menons des expériences sur la traduction supervisée (y compris à niveau de phrase et de document), semi-supervisée et non supervisée, et obtenons des résultats de pointe sur sept jeux de données de référence. Notre code est disponible à l’adresse suivante : \url{https://github.com/bert-nmt/bert-nmt}.