il y a 2 mois

Espaces latents sphériques pour des autoencodeurs variationnels stables

Jiacheng Xu; Greg Durrett

Résumé

Une caractéristique distinctive des autoencodeurs variationnels (VAEs) pour le traitement du texte est leur combinaison de modèles d'encodeur-décodeur puissants, tels que les LSTM, avec des distributions latentes simples, généralement des gaussiennes multivariées. Ces modèles posent un problème d'optimisation difficile : il existe un optimum local particulièrement mauvais où la postérieure variationnelle est toujours égale à la loi a priori et où le modèle ne utilise pas du tout la variable latente, une sorte de « collapse » encouragé par le terme de divergence KL de l'objectif. Dans ce travail, nous expérimentons une autre distribution latente, à savoir la distribution von Mises-Fisher (vMF), qui place sa masse sur la surface de l'hypersphère unitaire. Avec ce choix de lois a priori et a posteriori, le terme de divergence KL dépend maintenant uniquement de la variance de la distribution vMF, ce qui nous donne la possibilité de le traiter comme un hyperparamètre fixe. Nous montrons que procéder ainsi non seulement évite le collapse KL, mais offre également systématiquement de meilleures vraisemblances que les gaussiennes dans une gamme de conditions de modélisation, y compris pour la modélisation linguistique récurrente et la modélisation documentaire en sacs de mots. Une analyse des propriétés de nos représentations vMF montre qu'elles apprennent des structures plus riches et plus nuancées dans leurs représentations latentes que leurs homologues gaussiens.