Apprentissage hiérarchique pour la génération avec des séquences sources longues

L'une des principales difficultés des modèles actuels de séquence à séquence (seq2seq) réside dans le traitement des séquences longues, telles que celles rencontrées dans les tâches de résumé automatique et de traduction automatique à l'échelle du document. Ces tâches exigent que le modèle effectue un raisonnement à plusieurs niveaux : au niveau des tokens, des phrases et des paragraphes. Nous proposons et étudions une nouvelle architecture basée sur l'attention hiérarchique, appelée HAT (Hierarchical Attention Transformer), qui dépasse les performances des Transformers standards sur plusieurs tâches de séquence à séquence. En outre, notre modèle atteint des scores ROUGE de pointe (state-of-the-art) sur quatre tâches de résumé, notamment PubMed, arXiv, CNN/DM, SAMSum et AMI. Il surpasse également la base de référence pour la traduction à l'échelle du document sur la tâche WMT20 de traduction anglaise vers allemande. Nous analysons ce que les couches hiérarchiques apprennent en visualisant l'attention encodage-décodage hiérarchique. Enfin, nous étudions l'apprentissage hiérarchique dans le cadre de l'entraînement préalable uniquement encodant et évaluons ses performances sur des tâches de classification.