IEPile-Korpus Zur Extraktion Umfangreicher Informationen
Datum
Größe
Veröffentlichungs-URL
Kategorien
IEPile ist ein umfangreicher, hochwertiger, zweisprachiger (Chinesisch und Englisch) Datensatz zur Feinabstimmung von Anweisungen zur Informationsextraktion (IE), der von der Zhejiang-Universität entwickelt wurde und drei zentrale Teilaufgaben abdeckt: Named Entity Recognition (NER), Relationsextraktion (RE) und Event Extraction (EE). Der Datensatz enthält etwa 2 Millionen Anweisungsbeispiele mit insgesamt etwa 320 Millionen Token, die mehrere Bereiche wie Allgemeinwissen, Medizin und Finanzen abdecken.
Das Forschungsteam stellte die hohe Qualität des Datensatzes sicher, indem es 26 englische und 7 chinesische IE-Datensätze sorgfältig integrierte und die vorgeschlagene „schemabasierte Methode zur Erstellung von Polling-Anweisungen“ übernahm, einschließlich der Erstellung eines Wörterbuchs mit schwierigen negativen Stichproben und der Generierung von Polling-Anweisungen. Die Konstruktion von IEPile verbessert die Leistung großer Modelle bei Aufgaben zur Informationsextraktion erheblich, insbesondere die Zero-Shot-Generalisierungsfunktionen, und stellt wertvolle Ressourcen für die Informationsextraktionsforschung bereit.