HyperAIHyperAI

Command Palette

Search for a command to run...

SentenceMIM : Un modèle de langue à variables latentes

Micha Livne Kevin Swersky David J. Fleet

Résumé

SentenceMIM est un auto-encodeur probabiliste conçu pour les données linguistiques, entraîné via l’apprentissage par Information Mutuelle (MIM), afin de produire une représentation de longueur fixe à partir d’observations linguistiques de longueur variable (similaire à un VAE). Les tentatives antérieures d’apprentissage de VAE pour des données linguistiques ont été confrontées à des difficultés dues au phénomène de « collapse de la postérieure ». L’apprentissage MIM favorise une forte information mutuelle entre les observations et les variables latentes, et s’avère robuste face au collapse de la postérieure. Par conséquent, il permet d’apprendre des représentations informatives dont la dimension peut être d’un ordre de grandeur supérieur à celle des VAE linguistiques existants. Notamment, la fonction de perte de SentenceMIM ne comporte aucun hyperparamètre, ce qui simplifie considérablement l’optimisation. Nous comparons SentenceMIM aux VAE et aux AE sur plusieurs jeux de données. SentenceMIM obtient une reconstruction excellente, comparable aux AE, tout en offrant un espace latent structuré, comparable aux VAE. La structure de cette représentation latente est illustrée par des interpolations entre des phrases de longueurs différentes. Nous démontrons la polyvalence de SentenceMIM en utilisant un modèle entraîné pour la réponse à des questions et l’apprentissage transféré, sans ajustement fin (fine-tuning), surpassant ainsi les VAE et les AE ayant des architectures similaires.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SentenceMIM : Un modèle de langue à variables latentes | Articles | HyperAI