Inférence variationnelle neuronale pour le traitement du texte

Les progrès récents en inférence variationnelle neuronale ont engendré un renouveau dans les modèles à variables latentes profondes. Dans cet article, nous présentons un cadre d'inférence variationnelle générique pour les modèles génératifs et conditionnels de texte. Alors que les méthodes variationnelles traditionnelles dérivent une approximation analytique des distributions non tractables sur les variables latentes, nous construisons ici un réseau d'inférence conditionné sur l'entrée textuelle discrète pour fournir la distribution variationnelle. Nous validons ce cadre sur deux applications très différentes de modélisation de texte : la modélisation générative de documents et le questionnement supervisé. Notre modèle de document par inférence variationnelle neuronale combine une représentation stochastique continue du document avec un modèle génératif de sac de mots et atteint les perplexités les plus basses rapportées sur deux corpus de test standards. Le modèle de sélection des réponses neuronales utilise une couche de représentation stochastique au sein d'un mécanisme d'attention pour extraire la sémantique entre un couple question-réponse. Sur deux benchmarks de questionnement-réponse, ce modèle dépasse tous les précédents benchmarks publiés.