Extraction hiérarchique de sujets par arbre sphérique conjoint et intégration textuelle

Extraire un ensemble de sujets significatifs organisés en une hiérarchie est intuitivement attrayant, car les corrélations entre sujets sont fréquentes dans les grandes corpora de texte. Afin de tenir compte des structures hiérarchiques potentielles de sujets, les modèles hiérarchiques de sujets généralisent les modèles plats en intégrant des hiérarchies de sujets latentes dans leur processus de modélisation générative. Toutefois, en raison de leur nature purement non supervisée, la hiérarchie de sujets apprise s’écarte souvent des besoins ou centres d’intérêt spécifiques des utilisateurs. Pour guider le processus d’extraction hiérarchique de sujets avec une supervision utilisateur minimale, nous proposons une nouvelle tâche, appelée Extraction hiérarchique de sujets, qui prend en entrée un arbre de catégories décrit uniquement par des noms de catégories, et vise à extraire un ensemble de termes représentatifs pour chaque catégorie à partir d’un corpus de texte, afin d’aider l’utilisateur à mieux comprendre les sujets qui l’intéressent. Nous développons une nouvelle méthode conjointe d’embedding de l’arbre et du texte, accompagnée d’une procédure d’optimisation rigoureuse, permettant une modélisation simultanée de la structure de l’arbre de catégories et du processus génératif du corpus dans l’espace sphérique, afin d’extraire efficacement des termes représentatifs par catégorie. Nos expériences approfondies montrent que notre modèle, nommé JoSH, extrait un ensemble de sujets hiérarchiques de haute qualité avec une grande efficacité, et apporte un bénéfice significatif aux tâches de classification textuelle hiérarchique faiblement supervisée.