HyperAIHyperAI
il y a 11 jours

Perte de Dice pour les tâches NLP à déséquilibre de données

Xiaoya Li, Xiaofei Sun, Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li
Perte de Dice pour les tâches NLP à déséquilibre de données
Résumé

De nombreuses tâches de traitement du langage naturel (NLP), telles que l’annotation de parties du discours ou la compréhension automatique de texte, sont confrontées à un problème sévère d’imbalanced des données : le nombre d’exemples négatifs est largement supérieur à celui des exemples positifs, et le volume massif d’exemples de fond (ou exemples négatifs faciles) domine l’entraînement. La fonction de perte la plus couramment utilisée, l’entropie croisée (CE), est en réalité une fonction objectif orientée vers l’exactitude, ce qui engendre un décalage entre l’entraînement et l’évaluation : pendant l’entraînement, chaque instance contribue de manière égale à la fonction objectif, tandis qu’en évaluation, le score F1 accorde une importance accrue aux exemples positifs. Dans cet article, nous proposons d’utiliser la perte de Dice à la place de l’objectif standard d’entropie croisée pour les tâches NLP à données déséquilibrées. La perte de Dice repose sur le coefficient de Sørensen-Dice ou l’indice de Tversky, qui attribuent une importance similaire aux faux positifs et aux faux négatifs, et est donc moins sensible au déséquilibre des données. Pour atténuer davantage l’influence prédominante des exemples négatifs faciles pendant l’entraînement, nous introduisons une pondération dynamique des exemples d’entraînement afin de réduire leur poids. L’analyse théorique montre que cette stratégie réduit l’écart entre le score F1 en évaluation et la perte de Dice pendant l’entraînement. Grâce à cette nouvelle fonction objectif, nous observons une amélioration significative des performances sur un large éventail de tâches NLP déséquilibrées. Notamment, nous atteignons des résultats SOTA (state-of-the-art) sur CTB5, CTB6 et UD1.4 pour la tâche d’annotation de parties du discours ; des résultats SOTA sur CoNLL03, OntoNotes5.0, MSRA et OntoNotes4.0 pour la tâche de reconnaissance d’entités nommées ; ainsi que des résultats compétitifs sur les tâches de compréhension automatique de texte et d’identification de paraphrases.

Perte de Dice pour les tâches NLP à déséquilibre de données | Articles de recherche récents | HyperAI