Représentation de document spécifique à l'étiquette pour la classification de texte multi-étiquettes

La classification de texte à plusieurs étiquettes (MLTC) vise à attribuer les étiquettes les plus pertinentes à un document donné. Dans cet article, nous proposons un réseau d'attention spécifique à l'étiquette (LSAN) afin d'apprendre une représentation document spécifique à chaque étiquette. Le LSAN exploite les informations sémantiques des étiquettes pour établir les connexions sémantiques entre les étiquettes et le document, afin de construire une représentation document spécifique à l'étiquette. Parallèlement, le mécanisme d'attention auto-attention est utilisé pour extraire la représentation document spécifique à l'étiquette à partir des informations contenues dans le document. Afin d'intégrer de manière fluide ces deux composantes, une stratégie d'agrégation adaptative est proposée, permettant de produire efficacement une représentation documentaire complète et spécifique à l'étiquette, utilisée pour construire un classificateur de texte à plusieurs étiquettes. Les résultats expérimentaux étendus démontrent que le LSAN surpasse de manière cohérente les méthodes de pointe sur quatre jeux de données différents, en particulier pour la prédiction des étiquettes à faible fréquence. Le code source ainsi que les réglages des hyperparamètres sont mis à disposition afin de faciliter la recherche par d'autres chercheurs.