Représentations à queue lourde, classification de la polarité du texte et augmentation de données

Les approches dominantes de représentation du texte en traitement du langage naturel s'appuient sur l'apprentissage d'embeddings à partir de grands corpus, qui présentent des propriétés avantageuses telles que la compositionnalité et la préservation des distances. Dans cet article, nous proposons une nouvelle méthode visant à apprendre un embedding à queue lourde, possédant des propriétés de régularité souhaitables concernant les queues de distribution, ce qui permet d’analyser les points éloignés du noyau de la distribution au moyen du cadre de la théorie des valeurs extrêmes multivariées. En particulier, nous obtenons un classificateur dédié aux queues de l’embedding proposé, dont les performances dépassent celles du modèle de base. Ce classificateur présente une propriété d’invariance d’échelle que nous exploitons pour introduire une nouvelle méthode de génération de texte permettant une augmentation de jeu de données préservant les étiquettes. Des expériences numériques sur des données textuelles synthétiques et réelles démontrent la pertinence du cadre proposé et confirment que cette méthode permet de générer des phrases significatives, aux attributs contrôlés, par exemple un sentiment positif ou négatif.