HyperAIHyperAI
il y a 16 jours

DeBERTa : BERT à attention désentrelacée améliorée par décodage

Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen
DeBERTa : BERT à attention désentrelacée améliorée par décodage
Résumé

Les progrès récents dans les modèles pré-entraînés de langage neuronal ont considérablement amélioré les performances de nombreuses tâches de traitement du langage naturel (NLP). Dans cet article, nous proposons une nouvelle architecture de modèle, DeBERTa (Decoding-enhanced BERT with disentangled attention), qui améliore les modèles BERT et RoBERTa grâce à deux techniques novatrices. La première est un mécanisme d'attention déconnectée, dans lequel chaque mot est représenté par deux vecteurs distincts, respectivement encodant son contenu et sa position, et les poids d'attention entre les mots sont calculés à l’aide de matrices déconnectées appliquées séparément à leurs contenus et à leurs positions relatives. La deuxième innovation consiste en un décodeur masqué amélioré, qui intègre les positions absolues dans la couche de décodage afin de prédire les mots masqués lors de l’entraînement préalable du modèle. En outre, une nouvelle méthode d’entraînement adversarial virtuel est appliquée lors du finetuning afin d’améliorer la généralisation du modèle. Nous montrons que ces techniques améliorent significativement l’efficacité de l’entraînement préalable ainsi que les performances des tâches downstream en compréhension du langage naturel (NLU) et en génération du langage naturel (NLG). Comparé à RoBERTa-Large, un modèle DeBERTa entraîné sur seulement la moitié des données d’entraînement obtient des résultats supérieurs de manière constante sur un large éventail de tâches NLP, avec des gains de +0,9 % sur MNLI (90,2 % contre 91,1 %), +2,3 % sur SQuAD v2.0 (88,4 % contre 90,7 %) et +3,6 % sur RACE (83,2 % contre 86,8 %). Notamment, nous avons élargi DeBERTa en entraînant une version plus grande comprenant 48 couches Transformer et 1,5 milliard de paramètres. Cette amélioration de performance notable permet au modèle DeBERTa unique de dépasser pour la première fois, en termes de score moyen macro, les performances humaines sur le benchmark SuperGLUE (Wang et al., 2019a) (89,9 contre 89,8), tandis que l’ensemble de modèles DeBERTa occupe la première place du classement SuperGLUE au 6 janvier 2021, dépassant nettement la performance humaine (90,3 contre 89,8).