il y a 11 jours

Un nouvel estimateur de l'information mutuelle pour l'apprentissage de représentations textuelles désenchevêtrées

Pierre Colombo, Chloe Clavel, Pablo Piantanida

Résumé

L’apprentissage de représentations désentrelacées à partir de données textuelles est essentiel pour de nombreuses tâches du traitement du langage naturel, telles que la classification équitable, le transfert de style ou la génération de phrases, entre autres. Les approches dominantes actuelles dans ce contexte reposent soit sur l’entraînement d’un adversaire (discriminateur) visant à rendre les valeurs des attributs difficiles à inférer à partir du code latent, soit sur la minimisation de bornes variationnelles de l’information mutuelle entre le code latent et la valeur de l’attribut. Toutefois, les méthodes disponibles souffrent de l’impossibilité de contrôler finement le degré (ou l’intensité) de désentrelacement. À la différence des méthodes adversariales, qui sont remarquablement simples, bien que l’adversaire semble fonctionner efficacement pendant l’entraînement, une partie significative des informations relatives à l’attribut indésirable persiste après la fin de l’apprentissage. Ce papier introduit une nouvelle borne supérieure variationnelle de l’information mutuelle entre un attribut et le code latent d’un encodeur. Notre borne vise à contrôler l’erreur d’approximation via la divergence de Renyi, conduisant à des représentations désentrelacées améliorées, et en particulier à un contrôle précis du degré souhaité de désentrelacement, surpassant ainsi les méthodes de pointe proposées pour les données textuelles. De plus, elle n’est pas sujette à la dégénérescence observée avec d’autres pertes dans les scénarios à plusieurs classes. Nous démontrons l’efficacité de cette méthode sur des tâches de classification équitable et de transfert de style textuel. En outre, nous apportons de nouvelles perspectives illustrant divers compromis dans le transfert de style lors de l’apprentissage de représentations désentrelacées, ainsi que leur impact sur la qualité des phrases générées.