HyperAIHyperAI
il y a 17 jours

ELECTRA : Pré-entraînement des encodeurs de texte en tant que discriminateurs plutôt que générateurs

Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning
ELECTRA : Pré-entraînement des encodeurs de texte en tant que discriminateurs plutôt que générateurs
Résumé

Les méthodes de pré-entraînement basées sur le modèle de langage masqué (MLM), telles que BERT, altèrent l’entrée en remplaçant certains tokens par [MASK], puis entraînent un modèle à reconstruire les tokens originaux. Bien qu’elles produisent de bons résultats lors de la transfert vers des tâches NLP en aval, elles nécessitent généralement de grandes quantités de ressources informatiques pour être efficaces. À titre d’alternative, nous proposons une tâche de pré-entraînement plus efficace en termes d’échantillons, appelée détection de tokens remplacés. Contrairement au masquage, notre approche altère l’entrée en remplaçant certains tokens par des alternatives plausibles échantillonnées à partir d’un petit réseau générateur. Ensuite, au lieu d’entraîner un modèle à prédire les identités originales des tokens altérés, nous entraînons un modèle discriminatif capable de déterminer si chaque token de l’entrée altérée a été remplacé par un échantillon issu du générateur ou non. Des expériences approfondies montrent que cette nouvelle tâche de pré-entraînement est plus efficace que le MLM, car elle est définie sur tous les tokens d’entrée, et non seulement sur le petit sous-ensemble masqué. En conséquence, les représentations contextuelles apprises par notre méthode surpassent significativement celles de BERT, pour une taille de modèle, une quantité de données et une puissance de calcul identiques. Les gains sont particulièrement marqués pour les modèles de petite taille : par exemple, nous entraînons un modèle sur une seule GPU pendant 4 jours, qui surpasse GPT (entraîné avec 30 fois plus de ressources) sur le benchmark GLUE d’évaluation du compréhension du langage naturel. Notre approche s’adapte également bien à grande échelle, où elle se compare favorablement à RoBERTa et XLNet tout en utilisant moins d’un quart de leurs ressources informatiques, et la dépasse lorsqu’elle est comparée avec un usage équivalent de calcul.