HyperAIHyperAI
il y a 2 mois

Un Cadre Unifié d'Apprentissage à Partir de Données Étiquetées Positivement et Non Étiquetées pour l'Extraction de Relations au Niveau du Document avec Différents Niveaux d'Étiquetage

Ye Wang; Xinxin Liu; Wenxin Hu; Tao Zhang
Un Cadre Unifié d'Apprentissage à Partir de Données Étiquetées Positivement et Non Étiquetées pour l'Extraction de Relations au Niveau du Document avec Différents Niveaux d'Étiquetage
Résumé

L'extraction de relations (RE) au niveau du document vise à identifier les relations entre les entités sur plusieurs phrases. La plupart des méthodes précédentes se sont concentrées sur l'RE au niveau du document sous supervision complète. Cependant, dans un scénario réel, il est coûteux et difficile de labelliser complètement toutes les relations dans un document, car le nombre de paires d'entités dans l'RE au niveau du document augmente quadratiquement avec le nombre d'entités. Pour résoudre le problème courant de labellisation incomplète, nous proposons un cadre unifié d'apprentissage positif-non étiqueté (PU) - apprentissage positif-non étiqueté par décalage et perte de classement quadratique (SSR-PU). Nous utilisons pour la première fois l'apprentissage PU pour l'RE au niveau du document. Étant donné que les données étiquetées d'un jeu de données peuvent entraîner un décalage a priori des données non étiquetées, nous introduisons un apprentissage PU sous décalage a priori des données d'entraînement. De plus, en utilisant le score de la classe nulle comme seuil adaptatif, nous proposons une perte de classement quadratique et prouvons sa cohérence bayésienne avec les métriques de classement multi-étiquettes. Des expériences approfondies montrent que notre méthode améliore d'environ 14 points F1 par rapport à la ligne de base précédente avec une labellisation incomplète. En outre, elle surpasses les résultats antérieurs de l'état de l'art tant sous supervision complète que dans des configurations extrêmement non étiquetées.

Un Cadre Unifié d'Apprentissage à Partir de Données Étiquetées Positivement et Non Étiquetées pour l'Extraction de Relations au Niveau du Document avec Différents Niveaux d'Étiquetage | Articles de recherche récents | HyperAI