DocOIE: Ein dokumentenübergreifendes, kontextbewusstes Dataset für OpenIE

Open Information Extraction (OpenIE) zielt darauf ab, strukturierte relationale Tupel (Subjekt, Relation, Objekt) aus Sätzen zu extrahieren und spielt eine entscheidende Rolle für zahlreiche Anwendungen in der natürlichen Sprachverarbeitung (NLP). Bisherige Ansätze führen die Extraktion auf Satzebene durch, ohne zusätzliche kontextuelle Informationen zu berücksichtigen. In der Realität existiert ein Satz jedoch typischerweise als Teil eines Dokuments und nicht isoliert; um ihn präzise zu interpretieren, ist oft der Zugriff auf relevante kontextuelle Informationen in seiner Umgebung erforderlich. Da bisher kein OpenIE-Datensatz auf Dokumentebene mit kontextbewusster Ausrichtung verfügbar ist, haben wir manuell 800 Sätze aus 80 Dokumenten in zwei Domänen (Gesundheitswesen und Verkehr) annotiert, um den DocOIE-Datensatz zur Evaluation zu erstellen. Darüber hinaus präsentieren wir DocIE, ein neuartiges OpenIE-Modell auf Dokumentebene, das kontextbewusst arbeitet. Unsere experimentellen Ergebnisse basierend auf DocIE zeigen, dass die Einbeziehung von Dokumentebene-Kontext die Leistung von OpenIE signifikant verbessert. Sowohl der DocOIE-Datensatz als auch das DocIE-Modell werden öffentlich bereitgestellt.