Command Palette
Search for a command to run...
Pré-entraînement de documents par étiquette pour la classification de texte multi-étiquette
Pré-entraînement de documents par étiquette pour la classification de texte multi-étiquette
Han Liu Caixia Yuan Xiaojie Wang
Résumé
Un défi majeur de la classification de texte à plusieurs étiquettes (MLTC) consiste à exploiter efficacement les différences entre étiquettes ainsi que les corrélations entre celles-ci. Dans cet article, nous abordons ce défi en proposant une méthode de pré-entraînement par étiquette, appelée Label-Wise Pre-Training (LW-PT), afin d’obtenir une représentation de document enrichie d’informations spécifiques aux étiquettes. L’idée fondamentale repose sur le fait qu’un document à plusieurs étiquettes peut être représenté comme une combinaison de plusieurs représentations spécifiques à chaque étiquette, et que des étiquettes corrélées apparaissent fréquemment ensemble dans les mêmes documents ou dans des documents similaires. La méthode LW-PT met en œuvre cette idée en concevant des tâches de classification de documents par étiquette et en entraînant des encodeurs de documents spécifiques à chaque étiquette. Enfin, l’encodeur pré-entraîné par étiquette est finement ajusté sur la tâche spécifique de MLTC. Des expérimentations étendues montrent que la méthode proposée présente des avantages significatifs par rapport aux modèles d’état de l’art précédents, tout en étant capable de découvrir des relations entre étiquettes raisonnables. Le code source est mis à disposition afin de faciliter les recherches futures.