HyperAIHyperAI

Command Palette

Search for a command to run...

Espaces latents sphériques pour des autoencodeurs variationnels stables

Jiacheng Xu Greg Durrett

Résumé

Une caractéristique distinctive des autoencodeurs variationnels (VAEs) pour le traitement du texte est leur combinaison de modèles d'encodeur-décodeur puissants, tels que les LSTM, avec des distributions latentes simples, généralement des gaussiennes multivariées. Ces modèles posent un problème d'optimisation difficile : il existe un optimum local particulièrement mauvais où la postérieure variationnelle est toujours égale à la loi a priori et où le modèle ne utilise pas du tout la variable latente, une sorte de « collapse » encouragé par le terme de divergence KL de l'objectif. Dans ce travail, nous expérimentons une autre distribution latente, à savoir la distribution von Mises-Fisher (vMF), qui place sa masse sur la surface de l'hypersphère unitaire. Avec ce choix de lois a priori et a posteriori, le terme de divergence KL dépend maintenant uniquement de la variance de la distribution vMF, ce qui nous donne la possibilité de le traiter comme un hyperparamètre fixe. Nous montrons que procéder ainsi non seulement évite le collapse KL, mais offre également systématiquement de meilleures vraisemblances que les gaussiennes dans une gamme de conditions de modélisation, y compris pour la modélisation linguistique récurrente et la modélisation documentaire en sacs de mots. Une analyse des propriétés de nos représentations vMF montre qu'elles apprennent des structures plus riches et plus nuancées dans leurs représentations latentes que leurs homologues gaussiens.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Espaces latents sphériques pour des autoencodeurs variationnels stables | Articles | HyperAI