HyperAIHyperAI
il y a 17 jours

DeBERTaV3 : Amélioration de DeBERTa grâce à un pré-entraînement de type ELECTRA avec partage de représentations d’embedding déconnecté du gradient

Pengcheng He, Jianfeng Gao, Weizhu Chen
DeBERTaV3 : Amélioration de DeBERTa grâce à un pré-entraînement de type ELECTRA avec partage de représentations d’embedding déconnecté du gradient
Résumé

Cet article présente un nouveau modèle pré-entraîné de langage, DeBERTaV3, qui améliore le modèle original DeBERTa en remplaçant le modèle de langage masqué (MLM) par une tâche de détection de jeton remplacé (RTD), une tâche d’entraînement préalable plus efficace en termes d’échantillonnage. Notre analyse montre que le partage d’embeddings classique dans ELECTRA nuit à l’efficacité de l’entraînement et à la performance du modèle. Cela s’explique par le fait que les pertes d’entraînement du discriminateur et du générateur poussent les embeddings de tokens dans des directions opposées, entraînant des dynamiques de type « tir à la corde ». Nous proposons donc une nouvelle méthode de partage d’embeddings désenchevêtrée par gradient, qui évite ces dynamiques, améliorant ainsi à la fois l’efficacité de l’entraînement et la qualité du modèle pré-entraîné. Nous avons pré-entraîné DeBERTaV3 avec les mêmes paramètres que DeBERTa afin de démontrer ses performances exceptionnelles sur une large gamme de tâches de compréhension du langage naturel (NLU). À titre d’exemple, sur le benchmark GLUE comprenant huit tâches, le modèle DeBERTaV3 Large atteint une moyenne de 91,37 %, soit une amélioration de 1,37 % par rapport à DeBERTa et de 1,91 % par rapport à ELECTRA, établissant ainsi un nouveau record d’état de l’art (SOTA) parmi les modèles de structure similaire. Par ailleurs, nous avons pré-entraîné un modèle multilingue, mDeBERTa, et observé une amélioration plus marquée par rapport aux modèles de référence forts que pour les modèles en anglais. Par exemple, le modèle mDeBERTa Base atteint une précision de 79,8 % en zéro-shot sur XNLI, soit une amélioration de 3,6 % par rapport à XLM-R Base, établissant un nouveau SOTA sur cette benchmark. Nous mettons à disposition publiquement nos modèles pré-entraînés ainsi que le code d’inférence à l’adresse suivante : https://github.com/microsoft/DeBERTa.

DeBERTaV3 : Amélioration de DeBERTa grâce à un pré-entraînement de type ELECTRA avec partage de représentations d’embedding déconnecté du gradient | Articles de recherche récents | HyperAI