il y a 2 mois

Résumé Efficace de Texte avec un Seul Transformateur Pré-entraîné

Urvashi Khandelwal; Kevin Clark; Dan Jurafsky; Lukasz Kaiser

Résumé

L'entraînement préalable des modèles de langage (LM) a permis d'obtenir des performances impressionnantes et une efficacité en termes de nombre d'échantillons sur diverses tâches de compréhension linguistique. Cependant, il n'est pas encore clair comment utiliser au mieux les modèles de langage pré-entraînés pour les tâches de génération, telles que la résumation abstraite, notamment pour améliorer l'efficacité en termes de nombre d'échantillons. Dans ces contextes de séquence à séquence, les travaux antérieurs ont expérimenté le chargement des poids pré-entraînés dans les réseaux encodeur et/ou décodeur, mais ont utilisé des poids d'attention encodeur-décodeur non pré-entraînés. Nous utilisons quant à nous un réseau décodeur uniquement pré-entraîné, où le même modèle de langage Transformer encode la source et génère le résumé. Cela garantit que tous les paramètres du réseau, y compris ceux qui contrôlent l'attention sur les états sources, ont été pré-entraînés avant l'étape d'affinage. Les expériences menées sur le jeu de données CNN/Daily Mail montrent que notre modèle de langage Transformer pré-entraîné améliore considérablement les performances par rapport aux réseaux encodeur-décodeur Transformer pré-entraînés dans des configurations à données limitées. Par exemple, il atteint un score de 13,1 ROUGE-2 en utilisant seulement 1 % des données d'entraînement (environ 3000 exemples), tandis que les modèles encodeur-décodeur pré-entraînés obtiennent un score de 2,3 ROUGE-2.