HyperAIHyperAI
il y a 18 jours

Amélioration de la Prédiction des Classes Minoritaires Ciblées dans l'Extraction de Relations au Niveau des Phrases

{Yong-Suk Choi, Hyeong-Ryeol Baek}
Résumé

L'extraction de relations au niveau des phrases (RE) présente une distribution de données fortement déséquilibrée : environ 80 % des données sont étiquetées comme négatives, c’est-à-dire sans relation, tandis que certaines étiquettes positives correspondent à des classes minoritaires (MC), et certains exemples de ces classes minoritaires sont incorrectement étiquetés. En raison de ces défis — bruit d’étiquetage et faible disponibilité des données sources — la plupart des modèles échouent à apprendre efficacement les classes minoritaires, obtenant des scores F1 nuls ou très faibles sur celles-ci. Les études antérieures se sont plutôt concentrées sur les scores F1 micro, laissant les classes minoritaires insuffisamment traitées. Pour réduire les erreurs de classification élevées sur les classes minoritaires, nous proposons (1) un module d’attention pour les classes minoritaires (MCAM), et (2) des méthodes d’augmentation efficaces spécifiquement conçues pour la RE. Le MCAM calcule des scores de confiance sur les instances des classes minoritaires afin de sélectionner celles qui sont fiables pour l’augmentation, tout en regroupant les informations relatives aux classes minoritaires durant l’entraînement du modèle. Nos expérimentations montrent que notre approche atteint des scores F1 de pointe sur TACRED, tout en améliorant de manière significative le score F1 des classes minoritaires.