Modélisation topique neuronale avec entraînement adversaire bidirectionnel

Ces dernières années, on a assisté à une forte croissance d'intérêt pour l'utilisation des modèles de sujets neuronaux afin d'extraire automatiquement des sujets à partir de textes, car ces modèles évitent les dérivations mathématiques complexes nécessaires à l'inférence des modèles traditionnels, tels que l'Allocation Dirichlet Latente (LDA). Toutefois, ces approches supposent généralement une loi a priori inappropriée (par exemple, une loi normale ou logistique normale) sur l'espace des sujets latents, ou bien elles ne permettent pas d'inférer la distribution de sujets pour un document donné. Pour surmonter ces limitations, nous proposons une nouvelle approche de modélisation de sujets neuronaux, nommée modèle Bidirectionnel Adversarial Topic (BAT), qui constitue la première tentative d'appliquer un apprentissage adversarial bidirectionnel à la modélisation de sujets neuronaux. Le modèle BAT établit une projection bidirectionnelle entre la distribution document-sujet et la distribution document-mot. Il utilise un générateur pour capturer les motifs sémantiques présents dans les textes, ainsi qu'un encodeur pour l'inférence des sujets. En outre, afin d'intégrer des informations sur les relations entre mots, nous étendons le modèle BAT en un modèle bidirectionnel adversarial avec loi gaussienne, appelé Gaussian-BAT. Pour valider l'efficacité de BAT et de Gaussian-BAT, nous menons des expériences sur trois corpus de référence. Les résultats expérimentaux montrent que BAT et Gaussian-BAT produisent des sujets plus cohérents, surpassant plusieurs modèles de référence compétitifs. De plus, lorsqu'on effectue un regroupement de textes basé sur les sujets extraits, nos modèles surpassent tous les modèles de référence, avec des améliorations plus marquées observées pour Gaussian-BAT, où une augmentation d'environ 6 % est constatée en précision.