HyperAIHyperAI
il y a 2 mois

Préformation de réseaux à auto-attention guidée par les tests de complétion

Alexei Baevski; Sergey Edunov; Yinhan Liu; Luke Zettlemoyer; Michael Auli
Préformation de réseaux à auto-attention guidée par les tests de complétion
Résumé

Nous présentons une nouvelle approche pour l'entraînement préalable d'un modèle de transformateur bidirectionnel qui offre des gains de performance significatifs sur une variété de problèmes de compréhension linguistique. Notre modèle résout une tâche de reconstruction de mots dans un format cloze, où chaque mot est supprimé et doit être prédit à partir du reste du texte. Les expériences démontrent des gains de performance importants sur le benchmark GLUE et des résultats d'état de l'art inédits sur les tâches d'identification des entités nommées (NER) ainsi que sur les benchmarks d'analyse en constituants, cohérents avec le modèle BERT introduit simultanément. Nous présentons également une analyse détaillée de plusieurs facteurs contribuant à un entraînement préalable efficace, notamment le domaine et la taille des données, la capacité du modèle, et les variations de l'objectif cloze.

Préformation de réseaux à auto-attention guidée par les tests de complétion | Articles de recherche récents | HyperAI