HyperAIHyperAI
vor 2 Monaten

DocRED: Ein großes Datensatz für die Beziehungsextraktion auf Dokumentebene

Yuan Yao; Deming Ye; Peng Li; Xu Han; Yankai Lin; Zhenghao Liu; Zhiyuan Liu; Lixin Huang; Jie Zhou; Maosong Sun
DocRED: Ein großes Datensatz für die Beziehungsextraktion auf Dokumentebene
Abstract

Mehrere Entitäten in einem Dokument zeigen in der Regel komplexe inter-satzliche Beziehungen auf, die von den bestehenden Beziehungsextraktionsmethoden (RE), die sich in der Regel auf die Extraktion von inner-satzlichen Beziehungen für einzelne Entitätspaare konzentrieren, nicht gut verarbeitet werden können. Um die Forschung auf dem Gebiet der dokumentbasierten RE zu beschleunigen, stellen wir DocRED vor, einen neuen Datensatz, der aus Wikipedia und Wikidata erstellt wurde und drei Merkmale aufweist: (1) DocRED annotiert sowohl benannte Entitäten als auch Beziehungen und ist der größte menschlich annotierte Datensatz für dokumentbasierte RE aus unformatiertem Text; (2) DocRED erfordert das Lesen mehrerer Sätze in einem Dokument, um Entitäten zu extrahieren und ihre Beziehungen durch Zusammenführung aller Informationen des Dokuments zu inferieren; (3) neben den menschlich annotierten Daten bieten wir auch umfangreiche weitgehend überwachte Daten an, was es ermöglicht, DocRED sowohl für überwachte als auch für schwach überwachte Szenarien einzusetzen. Um die Herausforderungen der dokumentbasierten RE zu überprüfen, implementieren wir aktuelle Stand-of-the-Art-Methoden für RE und führen eine gründliche Bewertung dieser Methoden anhand von DocRED durch. Empirische Ergebnisse zeigen, dass DocRED für existierende RE-Methoden herausfordernd ist, was darauf hinweist, dass dokumentbasierte RE ein offenes Problem bleibt und weitere Anstrengungen erforderlich sind. Auf Basis einer detaillierten Analyse der Experimente diskutieren wir mehrere vielversprechende Richtlinien für zukünftige Forschung.