il y a 3 mois

Entraînement adversaire pour les grands modèles neuronaux linguistiques

Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung Poon, Jianfeng Gao

Résumé

La généralisation et la robustesse sont deux objectifs essentiels dans la conception des méthodes d’apprentissage automatique. L’entraînement adversaire améliore la robustesse, mais des travaux antérieurs ont souvent constaté qu’il nuit à la généralisation. En traitement du langage naturel (NLP), le pré-entraînement de grands modèles neuronaux comme BERT a permis d’obtenir des gains remarquables en généralisation sur de nombreuses tâches, avec une amélioration supplémentaire apportée par un fin-tuning adversaire. Toutefois, ces modèles restent vulnérables aux attaques adverses. Dans cet article, nous démontrons qu’un pré-entraînement adversaire peut améliorer à la fois la généralisation et la robustesse. Nous proposons un algorithme général, ALUM (Adversarial training for large neural LangUage Models), qui régularise la fonction objective d’entraînement en appliquant des perturbations dans l’espace d’embedding maximisant la perte adverse. Nous présentons la première étude exhaustive de l’entraînement adversaire à toutes les étapes : pré-entraînement à partir de zéro, pré-entraînement continu sur un modèle déjà bien entraîné, et fin-tuning spécifique à une tâche. ALUM obtient des gains substantiels par rapport à BERT sur une large gamme de tâches NLP, tant dans des scénarios réguliers que adverses. Même pour des modèles déjà très bien entraînés sur de très grands corpus textuels, tels que RoBERTa, ALUM permet encore d’obtenir des améliorations significatives via un pré-entraînement continu, alors que les méthodes classiques non adverses échouent à produire de tels gains. ALUM peut être combiné ultérieurement avec un fin-tuning spécifique à la tâche afin d’obtenir des gains supplémentaires. Le code ALUM est disponible publiquement à l’adresse suivante : https://github.com/namisan/mt-dnn.