il y a 9 jours

ProphetNet : Prédiction des n-grammes futurs pour l'entraînement préalable séquence-à-séquence

Weizhen Qi, Yu Yan, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou

Résumé

Cet article présente un nouveau modèle pré-entraîné de type séquence à séquence appelé ProphetNet, qui introduit une nouvelle objectif auto-supervisé nommé prédiction des n-grammes futurs ainsi qu’un mécanisme d’attention auto-supervisée à n flux. Contrairement aux modèles séquence à séquence traditionnels, qui sont optimisés pour la prédiction à un pas d’avance, ProphetNet est optimisé par une prédiction à n pas d’avance, permettant de prédire simultanément les n tokens suivants à partir des tokens contextuels précédents à chaque étape temporelle. La prédiction des n-grammes futurs encourage explicitement le modèle à anticiper les tokens futurs et à éviter le surajustement aux corrélations locales fortes. Nous pré-entraînons ProphetNet à l’aide d’un jeu de données de taille basse (16 Go) et d’un jeu de données à grande échelle (160 Go), respectivement. Ensuite, nous menons des expériences sur les benchmarks CNN/DailyMail, Gigaword et SQuAD 1.1 pour les tâches de résumé abstrait et de génération de questions. Les résultats expérimentaux montrent que ProphetNet atteint de nouveaux états de l’art sur tous ces jeux de données par rapport aux modèles utilisant un corpus de pré-entraînement de même échelle.