HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage hiérarchique pour la génération avec des séquences sources longues

Tobias Rohde Xiaoxia Wu Yinhan Liu

Résumé

L'une des principales difficultés des modèles actuels de séquence à séquence (seq2seq) réside dans le traitement des séquences longues, telles que celles rencontrées dans les tâches de résumé automatique et de traduction automatique à l'échelle du document. Ces tâches exigent que le modèle effectue un raisonnement à plusieurs niveaux : au niveau des tokens, des phrases et des paragraphes. Nous proposons et étudions une nouvelle architecture basée sur l'attention hiérarchique, appelée HAT (Hierarchical Attention Transformer), qui dépasse les performances des Transformers standards sur plusieurs tâches de séquence à séquence. En outre, notre modèle atteint des scores ROUGE de pointe (state-of-the-art) sur quatre tâches de résumé, notamment PubMed, arXiv, CNN/DM, SAMSum et AMI. Il surpasse également la base de référence pour la traduction à l'échelle du document sur la tâche WMT20 de traduction anglaise vers allemande. Nous analysons ce que les couches hiérarchiques apprennent en visualisant l'attention encodage-décodage hiérarchique. Enfin, nous étudions l'apprentissage hiérarchique dans le cadre de l'entraînement préalable uniquement encodant et évaluons ses performances sur des tâches de classification.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage hiérarchique pour la génération avec des séquences sources longues | Articles | HyperAI