TagRec : Étiquetage Automatisé des Questions avec une Taxonomie d'Apprentissage Hiérarchique

Les plateformes d'éducation en ligne organisent les questions académiques selon une taxonomie hiérarchique d'apprentissage (matière-chapitre-sujet). L'étiquetage automatique des nouvelles questions avec la taxonomie existante permettra de classer ces questions dans différentes catégories de la taxonomie hiérarchique afin qu'elles puissent être recherchées en fonction des facettes telles que le chapitre. Cette tâche peut être formulée comme un problème de classification multiclasses à plat. Généralement, les méthodes de classification à plat ignorent la pertinence sémantique entre les termes de la taxonomie hiérarchique et les questions. Certaines méthodes traditionnelles souffrent également du problème d'imbalance des classes car elles ne prennent en compte que les nœuds terminaux, ignorant la hiérarchie. Par conséquent, nous formulons le problème comme une tâche de recherche basée sur la similarité où nous optimisons la pertinence sémantique entre la taxonomie et les questions. Nous démontrons que notre méthode permet de gérer les étiquettes inconnues et peut donc être utilisée pour l'étiquetage de taxonomie dans des situations réelles. Dans cette méthode, nous enrichissons la question avec sa réponse correspondante pour capturer plus d'informations sémantiques, puis alignons l'embedding contextuel du couple question-réponse avec les représentations vectorielles correspondantes de l'étiquette (taxonomie). Les représentations sont alignées en affinant un modèle basé sur un transformateur avec une fonction de perte qui est une combinaison de similarité cosinus et de perte par rangement à charnière (hinge rank loss). La fonction de perte maximise la similarité entre le couple question-réponse et les représentations des étiquettes correctes tout en minimisant la similarité avec les étiquettes non pertinentes. Enfin, nous menons des expériences sur deux jeux de données réels. Nous montrons que la méthode proposée surpasse les représentations apprises par la méthode de classification multiclasses à plat et d'autres méthodes d'avant-garde actuelles, améliorant le Recall@k de 6%. Nous démontrons également les performances de notre méthode sur du contenu d'apprentissage inconnu mais lié, comme les objectifs d'apprentissage, sans re-entraîner le réseau.