vONTSS : Modélisation de sujets neurale semi-supervisée basée sur la distribution vMF avec transport optimal

Récemment, les modèles topiques neuronaux (NTM), inspirés des autoencodeurs variationnels, ont suscité un vif intérêt scientifique ; toutefois, leur application concrète reste limitée en raison des difficultés liées à l’intégration des connaissances humaines. Ce travail présente une méthode semi-supervisée de modélisation topique neuronale, appelée vONTSS, qui repose sur des autoencodeurs variationnels fondés sur la distribution de von Mises-Fisher (vMF) et la théorie du transport optimal. Lorsqu’un petit nombre de mots-clés par sujet est fourni, vONTSS, dans un cadre semi-supervisé, génère des sujets potentiels tout en optimisant à la fois la qualité des associations sujet-mot-clé et la classification des sujets. Les expérimentations montrent que vONTSS surpasser les méthodes existantes de modélisation topique semi-supervisée en termes de précision de classification et de diversité des sujets découverts. vONTSS supporte également la modélisation topique non supervisée. Des expériences quantitatives et qualitatives démontrent que, dans ce cadre, vONTSS excelle sur plusieurs aspects par rapport aux NTM récents : elle découvre des sujets fortement regroupés et cohérents sur des jeux de données standards. Elle est également bien plus rapide que la méthode d’art de la classification de texte faiblement supervisée la plus avancée, tout en atteignant des performances comparables en classification. Enfin, nous prouvons l’équivalence entre la perte de transport optimal et la perte d’entropie croisée au niveau du minimum global.