HyperAIHyperAI
il y a 11 jours

Vers un préentraînement efficace des modèles de langage et une adaptation fine en amont grâce à l’autodéveloppement : une étude de cas sur SuperGLUE

Qihuang Zhong, Liang Ding, Yibing Zhan, Yu Qiao, Yonggang Wen, Li Shen, Juhua Liu, Baosheng Yu, Bo Du, Yixin Chen, Xinbo Gao, Chunyan Miao, Xiaoou Tang, Dacheng Tao
Vers un préentraînement efficace des modèles de langage et une adaptation fine en amont grâce à l’autodéveloppement : une étude de cas sur SuperGLUE
Résumé

Ce rapport technique décrit brièvement la soumission de notre équipe JDExplore, Vega v2, au classement SuperGLUE. SuperGLUE est un défi plus exigeant que la référence largement utilisée d'évaluation de la compréhension du langage général (GLUE), comprenant huit tâches complexes de compréhension du langage, telles que la réponse aux questions, l'inférence sémantique, le sens des mots, la résolution de coréférences et le raisonnement. [Méthode] Contrairement à l'approche consistant à augmenter arbitrairement la taille d'un modèle préentraîné (PLM), notre objectif est de : 1) extraire pleinement les connaissances présentes dans les données d'entraînement initiales, sous un budget de paramètres donné (par exemple, 6 milliards), et 2) transférer efficacement ces connaissances vers des tâches spécifiques. Pour atteindre le premier objectif, nous proposons une méthode d'apprentissage par évolution auto-organisée pour les PLM, permettant de prédire de manière intelligente les jetons informatifs à masquer, tout en supervisant le processus de modélisation du langage masqué (MLM) à l’aide d’étiquettes lissées corrigées. Pour le second objectif, nous exploitons la technique de transfert de prompts afin d’améliorer les tâches à faible ressource en transférant les connaissances du modèle fondamental et des tâches associées vers la tâche cible. [Résultats] Selon notre enregistrement de soumission (octobre 2022), grâce à nos stratégies d’entraînement et de fin-tuning optimisées, notre méthode Vega à 6 milliards de paramètres a atteint de nouvelles performances de pointe sur 4 des 8 tâches, se situant en tête du classement SuperGLUE le 8 octobre 2022, avec une moyenne de score de 91,3.

Vers un préentraînement efficace des modèles de langage et une adaptation fine en amont grâce à l’autodéveloppement : une étude de cas sur SuperGLUE | Articles de recherche récents | HyperAI