HyperAIHyperAI
il y a 16 jours

Méthodes d'équilibrage pour la classification de texte multi-étiquettes avec une distribution de classes longue-queue

Yi Huang, Buse Giledereli, Abdullatif Köksal, Arzucan Özgür, Elif Ozkirimli
Méthodes d'équilibrage pour la classification de texte multi-étiquettes avec une distribution de classes longue-queue
Résumé

La classification de texte multi-label constitue une tâche difficile, car elle nécessite de capturer les dépendances entre les étiquettes. Cette difficulté s'accroît encore lorsque la répartition des classes suit une loi à queue longue. Les méthodes de rééchantillonnage et de répoidsage sont couramment utilisées pour traiter le problème d'imbalanced des classes, mais elles s'avèrent peu efficaces en présence de dépendances entre étiquettes, car elles entraînent un suréchantillonnage des étiquettes fréquentes. Dans cette étude, nous introduisons l'application de fonctions de perte équilibrées pour la classification de texte multi-label. Nous menons des expériences sur un jeu de données généraliste comprenant 90 étiquettes (Reuters-21578) ainsi que sur un jeu de données spécialisée issue de PubMed comportant 18 211 étiquettes. Nos résultats montrent qu'une fonction de perte équilibrée par rapport à la distribution, qui traite simultanément l'imbalance des classes et les dépendances entre étiquettes, surpassent les fonctions de perte couramment utilisées. Les méthodes d'équilibrage de distribution ont déjà fait leurs preuves dans le domaine de la reconnaissance d'images. Ici, nous démontrons leur efficacité dans le traitement du langage naturel. Le code source est disponible à l'adresse suivante : https://github.com/Roche/BalancedLossNLP.

Méthodes d'équilibrage pour la classification de texte multi-étiquettes avec une distribution de classes longue-queue | Articles de recherche récents | HyperAI