HyperAIHyperAI
vor 16 Tagen

DWIE: ein entitätszentriertes Dataset für mehrfachaufgabenbasierte informationsextraktion auf Dokumentenebene

Klim Zaporojets, Johannes Deleu, Chris Develder, Thomas Demeester
DWIE: ein entitätszentriertes Dataset für mehrfachaufgabenbasierte informationsextraktion auf Dokumentenebene
Abstract

Diese Arbeit stellt DWIE, das „Deutsche Welle Corpus for Information Extraction“, vor – ein neu erstelltes Multi-Task-Datenset, das vier zentrale Aufgaben der Informationsextraktion (Information Extraction, IE) kombiniert: (i) Named Entity Recognition (NER), (ii) Coreference Resolution, (iii) Relation Extraction (RE) und (iv) Entity Linking. DWIE ist als entitätszentriertes Datenset konzipiert, das Interaktionen und Eigenschaften konzeptueller Entitäten auf Ebene des gesamten Dokuments beschreibt. Dies unterscheidet sich von derzeit vorherrschenden, mention-getriebenen Ansätzen, die von der Erkennung und Klassifikation von Namensentitäten in einzelnen Sätzen ausgehen. Zudem stellen die Erstellung und Bewertung von IE-Modellen für DWIE zwei zentrale Herausforderungen dar. Erstens führen traditionelle, auf der Mention-Ebene basierende Bewertungsmetriken für NER und RE auf einem entitätszentrierten Datenset wie DWIE dazu, dass Messwerte überwiegend von Vorhersagen für häufiger vorkommende Entitäten dominiert werden. Um dieses Problem anzugehen, schlagen wir eine neue, entitätsgetriebene Metrik vor, die die Anzahl der in jeder vorhergesagten und ground-truth-Entität enthaltenen Mentionen berücksichtigt. Zweitens erfordern die dokumentweiten Multi-Task-Anmerkungen, dass Modelle Informationen zwischen Entitäten, die in verschiedenen Abschnitten des Dokuments auftreten, sowie zwischen verschiedenen Aufgaben in einer gemeinsamen Lernumgebung transferieren. Um dies zu realisieren, schlagen wir vor, graphbasierte neuronale Nachrichtenübertragungstechniken zwischen dokumentweiten Mention-Spannen einzusetzen. Unsere Experimente zeigen eine Steigerung von bis zu 5,5 F1-Prozentspunkten, wenn neuronale Graph-Propagation in unser gemeinsames Modell integriert wird. Dies unterstreicht das Potenzial von DWIE, die Forschung zu Graph Neural Networks für die Repräsentationslernung in multi-task IE weiter voranzutreiben. DWIE ist öffentlich unter https://github.com/klimzaporojets/DWIE verfügbar.

DWIE: ein entitätszentriertes Dataset für mehrfachaufgabenbasierte informationsextraktion auf Dokumentenebene | Neueste Forschungsarbeiten | HyperAI