HyperAIHyperAI
il y a 2 mois

Formation sans livre pour améliorer la mémoire de l'encodeur de résumé

Yichen Jiang; Mohit Bansal
Formation sans livre pour améliorer la mémoire de l'encodeur de résumé
Résumé

Un bon modèle de résumé séquence-à-séquence neuronal devrait disposer d'un encodeur puissant capable d'extraire et de mémoriser les informations importantes à partir de textes d'entrée longs, afin que le décodeur puisse générer des résumés pertinents basés sur la mémoire de l'encodeur. Dans cet article, nous visons à améliorer les capacités de mémorisation de l'encodeur d'un modèle pointeur-générateur en ajoutant un décodeur supplémentaire « closed-book » (fermé) sans mécanismes d'attention et de pointage. Un tel décodeur oblige l'encodeur à être plus sélectif dans l'information encodée dans son état de mémoire, car le décodeur ne peut pas s'appuyer sur les informations supplémentaires fournies par les mécanismes d'attention et éventuellement de copie, ce qui améliore ainsi l'ensemble du modèle. Sur le jeu de données CNN/Daily Mail, notre modèle à deux décodeurs surpasse significativement la référence en termes de métriques ROUGE et METEOR, tant pour les configurations basées sur l'entropie croisée que pour celles renforcées (et lors des évaluations humaines). De plus, notre modèle obtient également des scores plus élevés dans une configuration de généralisation DUC-2002 uniquement axée sur les tests. Nous présentons en outre un test des capacités mnésiques, deux métriques de salience, ainsi que plusieurs expériences d'élagage (basées sur un encodeur fixe, une coupure du flux de gradients et la capacité du modèle) pour prouver que l'encodeur de notre modèle à deux décodeurs apprend effectivement des représentations mnésiques plus robustes que l'encodeur de référence.

Formation sans livre pour améliorer la mémoire de l'encodeur de résumé | Articles de recherche récents | HyperAI