il y a un mois

Couches de sortie résiduelles profondes pour la génération de langage neuronal

Nikolaos Pappas; James Henderson

Résumé

De nombreuses tâches, notamment la génération de langage, bénéficient de l'apprentissage de la structure de l'espace de sortie, en particulier lorsque l'espace des étiquettes de sortie est vaste et les données sont peu abondantes. Les modèles neuronaux linguistiques d'avant-garde capturent indirectement la structure de l'espace de sortie dans leurs poids de classification, car ils ne partagent pas les paramètres entre les étiquettes de sortie. L'apprentissage de mappages d'étiquettes de sortie partagés aide, mais les méthodes existantes ont une expressivité limitée et sont sujettes au surapprentissage. Dans cet article, nous examinons l'utilité de mappages partagés plus puissants pour les étiquettes de sortie et proposons un mappage d'étiquettes de sortie profond avec des couches résiduelles et un dropout entre les couches pour mieux capturer la structure de l'espace de sortie et éviter le surapprentissage. Les évaluations sur trois tâches de génération de langage montrent que notre mappage d'étiquettes de sortie peut égaler ou surpasser les architectures récurrentes et à attention autoportante d'avant-garde, et suggèrent que le classifieur n'a pas nécessairement besoin d'être à rang élevé pour mieux modéliser le langage naturel s'il est plus efficace pour capturer la structure de l'espace de sortie.