Corpus D'extraction D'informations À Grande Échelle IEPile
Date
Taille
URL de publication
Catégories
IEPile est un ensemble de données d'instructions d'extraction d'informations (IE) bilingue (chinois et anglais) à grande échelle et de haute qualité, développé par l'Université du Zhejiang, couvrant trois sous-tâches principales : la reconnaissance d'entités nommées (NER), l'extraction de relations (RE) et l'extraction d'événements (EE). L'ensemble de données contient environ 2 millions d'échantillons d'instructions, totalisant environ 320 millions de jetons, couvrant plusieurs domaines tels que le général, le médical et le financier.
L'équipe de recherche a assuré la haute qualité de l'ensemble de données en intégrant soigneusement 26 ensembles de données IE anglais et 7 chinois et en adoptant la « méthode de construction d'instructions de sondage basée sur un schéma » proposée, y compris la création d'un dictionnaire d'échantillons négatifs difficiles et la génération d'instructions de sondage. La construction d'IEPile améliore considérablement les performances des grands modèles dans les tâches d'extraction d'informations, en particulier les capacités de généralisation à zéro coup, fournissant des ressources précieuses pour la recherche sur l'extraction d'informations.