HyperAIHyperAI
il y a un mois

Amélioration du Modèle de Langage Neuronal par l'Entraînement Adversarial

Dilin Wang; Chengyue Gong; Qiang Liu
Amélioration du Modèle de Langage Neuronal par l'Entraînement Adversarial
Résumé

Récemment, des progrès considérables ont été réalisés dans le domaine du modélisation de la langue en utilisant des réseaux neuronaux profonds. Cependant, en pratique, les grands modèles de langage neuronaux se sont avérés être sensibles au surapprentissage. Dans cet article, nous présentons un mécanisme d'entraînement adverse simple mais très efficace pour régulariser ces modèles de langage neuronaux. L'idée consiste à introduire du bruit adverse dans la couche d'incrustation de sortie pendant l'entraînement des modèles. Nous montrons que le bruit adverse optimal conduit à une solution sous forme fermée simple, ce qui nous permet de développer un algorithme simple et efficace en termes de temps. Théoriquement, nous démontrons que notre mécanisme adverse favorise efficacement la diversité des vecteurs d'incrustation, contribuant ainsi à augmenter la robustesse des modèles. Expérimentalement, nous montrons que notre méthode améliore les résultats actuels pour le modèle unique dans le cadre du modélisation de la langue sur Penn Treebank (PTB) et Wikitext-2, atteignant des scores de perplexité de test respectifs de 46,01 et 38,07. Lorsqu'il est appliqué à la traduction automatique, notre méthode surpassent diverses bases de référence de traduction basées sur les transformateurs en termes de scores BLEU sur les tâches WMT14 anglais-allemand et IWSLT14 allemand-anglais.Note: "incrustation" is used here as a translation for "embedding," though it's more commonly translated as "plongement" in the context of neural networks and vector representations. If you prefer "plongement," please let me know and I can adjust the translation accordingly.

Amélioration du Modèle de Langage Neuronal par l'Entraînement Adversarial | Articles de recherche récents | HyperAI