HyperAIHyperAI
il y a 2 mois

Amélioration des autoencodeurs variationnels pour la modélisation de texte à l'aide de convolutions dilatées

Zichao Yang; Zhiting Hu; Ruslan Salakhutdinov; Taylor Berg-Kirkpatrick
Amélioration des autoencodeurs variationnels pour la modélisation de texte à l'aide de convolutions dilatées
Résumé

Les travaux récents sur la modélisation générative du texte ont montré que les auto-encodeurs variationnels (VAE) intégrant des décodeurs LSTM performaient moins bien que des modèles de langage LSTM plus simples (Bowman et al., 2015). Ce résultat négatif est mal compris à ce jour, mais il a été attribué à la tendance des décodeurs LSTM à ignorer les informations de conditionnement provenant de l'encodeur. Dans cet article, nous expérimentons un nouveau type de décodeur pour les VAE : une CNN dilatée. En modifiant l'architecture de dilatation du décodeur, nous contrôlons le contexte effectif des mots précédemment générés. Nos expériences montrent qu'il existe un compromis entre la capacité contextuelle du décodeur et la quantité d'informations d'encodage utilisées. Nous démontrons que, avec le bon décodeur, les VAE peuvent surpasser les modèles de langage LSTM. Nous illustrons ces gains en termes de perplexité sur deux jeux de données, représentant le premier résultat expérimental positif sur l'utilisation des VAE pour la modélisation générative du texte. De plus, nous menons une enquête approfondie sur l'utilisation des VAE (avec notre nouvelle architecture de décodage) pour les tâches d'étiquetage semi-supervisé et non supervisé, montrant des améliorations par rapport à plusieurs lignes de base solides.

Amélioration des autoencodeurs variationnels pour la modélisation de texte à l'aide de convolutions dilatées | Articles de recherche récents | HyperAI