SentenceMIM : Un modèle de langue à variables latentes

SentenceMIM est un auto-encodeur probabiliste conçu pour les données linguistiques, entraîné via l’apprentissage par Information Mutuelle (MIM), afin de produire une représentation de longueur fixe à partir d’observations linguistiques de longueur variable (similaire à un VAE). Les tentatives antérieures d’apprentissage de VAE pour des données linguistiques ont été confrontées à des difficultés dues au phénomène de « collapse de la postérieure ». L’apprentissage MIM favorise une forte information mutuelle entre les observations et les variables latentes, et s’avère robuste face au collapse de la postérieure. Par conséquent, il permet d’apprendre des représentations informatives dont la dimension peut être d’un ordre de grandeur supérieur à celle des VAE linguistiques existants. Notamment, la fonction de perte de SentenceMIM ne comporte aucun hyperparamètre, ce qui simplifie considérablement l’optimisation. Nous comparons SentenceMIM aux VAE et aux AE sur plusieurs jeux de données. SentenceMIM obtient une reconstruction excellente, comparable aux AE, tout en offrant un espace latent structuré, comparable aux VAE. La structure de cette représentation latente est illustrée par des interpolations entre des phrases de longueurs différentes. Nous démontrons la polyvalence de SentenceMIM en utilisant un modèle entraîné pour la réponse à des questions et l’apprentissage transféré, sans ajustement fin (fine-tuning), surpassant ainsi les VAE et les AE ayant des architectures similaires.