HyperAIHyperAI

Command Palette

Search for a command to run...

Méthodes d'équilibrage pour la classification de texte multi-étiquettes avec une distribution de classes longue-queue

Yi Huang Buse Giledereli Abdullatif Köksal Arzucan Özgür Elif Ozkirimli

Résumé

La classification de texte multi-label constitue une tâche difficile, car elle nécessite de capturer les dépendances entre les étiquettes. Cette difficulté s'accroît encore lorsque la répartition des classes suit une loi à queue longue. Les méthodes de rééchantillonnage et de répoidsage sont couramment utilisées pour traiter le problème d'imbalanced des classes, mais elles s'avèrent peu efficaces en présence de dépendances entre étiquettes, car elles entraînent un suréchantillonnage des étiquettes fréquentes. Dans cette étude, nous introduisons l'application de fonctions de perte équilibrées pour la classification de texte multi-label. Nous menons des expériences sur un jeu de données généraliste comprenant 90 étiquettes (Reuters-21578) ainsi que sur un jeu de données spécialisée issue de PubMed comportant 18 211 étiquettes. Nos résultats montrent qu'une fonction de perte équilibrée par rapport à la distribution, qui traite simultanément l'imbalance des classes et les dépendances entre étiquettes, surpassent les fonctions de perte couramment utilisées. Les méthodes d'équilibrage de distribution ont déjà fait leurs preuves dans le domaine de la reconnaissance d'images. Ici, nous démontrons leur efficacité dans le traitement du langage naturel. Le code source est disponible à l'adresse suivante : https://github.com/Roche/BalancedLossNLP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp