Une approche de couverture des sujets pour l'évaluation des modèles de sujets

Les modèles de sujets sont des modèles non supervisés largement utilisés, capables d'apprendre des sujets - listes pondérées de mots et de documents - à partir de grandes collections de documents textuels. Lorsque ces modèles sont utilisés pour découvrir des sujets dans les collections textuelles, une question qui se pose naturellement est la mesure dans laquelle les sujets induits par le modèle correspondent aux sujets d'intérêt pour l'analyste. Dans cet article, nous reprenons et étendons une approche jusqu'ici négligée pour l'évaluation des modèles de sujets basée sur la mesure de la couverture des sujets - l'appariement computationnel des sujets du modèle avec un ensemble de sujets de référence que les modèles sont censés révéler. Cette approche convient bien à l'analyse des performances des modèles en matière de découverte de sujets et à l'analyse à grande échelle des modèles de sujets ainsi que des mesures de qualité du modèle. Nous proposons de nouvelles mesures de couverture et évaluons, dans une série d'expériences, différents types de modèles de sujets sur deux domaines textuels distincts pour lesquels il existe un intérêt en matière de découverte de sujets. Les expériences incluent l'évaluation de la qualité du modèle, l'analyse de la couverture des catégories spécifiques de sujets et l'analyse de la relation entre la couverture et d'autres méthodes d'évaluation des modèles de sujets. Cet article apporte une nouvelle mesure supervisée de couverture ainsi que la première mesure non supervisée de couverture. La mesure supervisée atteint une précision d'appariement des sujets proche du consensus humain. La mesure non supervisée est fortement corrélée avec celle supervisée (le coefficient Spearman $\rho \geq 0,95$). D'autres contributions comprennent des perspectives sur les modèles de sujets et différentes méthodes d'évaluation du modèle, ainsi que les jeux de données et le code facilitant les futures recherches sur la couverture des sujets.