HyperAIHyperAI
il y a 7 jours

UniDrop : Une technique simple mais efficace pour améliorer les Transformers sans coût supplémentaire

Zhen Wu, Lijun Wu, Qi Meng, Yingce Xia, Shufang Xie, Tao Qin, Xinyu Dai, Tie-Yan Liu
UniDrop : Une technique simple mais efficace pour améliorer les Transformers sans coût supplémentaire
Résumé

L'architecture Transformer a remporté un succès considérable dans de nombreuses tâches de traitement du langage naturel. La sur-paramétrisation du modèle Transformer a motivé de nombreuses recherches visant à atténuer le surapprentissage afin d’obtenir de meilleures performances. À travers certaines explorations, nous avons constaté que des techniques simples telles que le dropout peuvent considérablement améliorer les performances du modèle grâce à une conception soignée. Dans ce papier, nous intégrons donc différentes techniques de dropout dans l’entraînement des modèles Transformer. Plus précisément, nous proposons une méthode nommée UniDrop, qui unit trois techniques de dropout différentes, allant du grain fin au grain grossier : le dropout de caractéristiques, le dropout de structure et le dropout de données. Théoriquement, nous démontrons que ces trois types de dropout jouent des rôles distincts du point de vue de la régularisation. Expérimentalement, nous menons des évaluations sur des jeux de données standards pour la traduction automatique neuronale et la classification de texte. Les résultats étendus montrent que le modèle Transformer avec UniDrop permet d’obtenir une amélioration d’environ 1,5 point BLEU sur la tâche de traduction IWSLT14, ainsi qu’une meilleure précision en classification, même lorsqu’il utilise comme architecture de base le modèle pré-entraîné puissant RoBERTa.