Apprentissage des plongements de documents avec leurs incertitudes

La plupart des techniques de modélisation de texte produisent uniquement des estimations ponctuelles des plongements de documents et ne parviennent pas à capturer l'incertitude de ces estimations. Ces incertitudes donnent une idée de la qualité avec laquelle les plongements représentent un document. Nous présentons le modèle multinomial bayésien sous-espace (Bayesian SMM), un modèle génératif log-linéaire qui apprend à représenter les documents sous forme de distributions gaussiennes, encodant ainsi l'incertitude dans sa matrice de covariance. De plus, dans le modèle Bayesian SMM proposé, nous abordons un problème couramment rencontré d'intraitabilité qui se pose lors de l'inférence variationnelle dans les modèles mixtes logit. Nous présentons également un classifieur linéaire gaussien génératif pour l'identification des sujets, qui exploite l'incertitude des plongements de documents. Notre évaluation intrinsèque utilisant la mesure de perplexité montre que le modèle Bayesian SMM proposé s'adapte mieux aux données comparativement au modèle neuronal variationnel documentaire d'avant-garde sur les corpus textuels Fisher Speech et 20Newsgroups. Nos expériences d'identification des sujets montrent que les systèmes proposés sont robustes face au surapprentissage sur des données de test inconnues. Les résultats d'identification des sujets indiquent que le modèle proposé surpasses les modèles de sujets non supervisés d'avant-garde et obtient des résultats comparables à ceux des modèles discriminants entièrement supervisés d'avant-garde.