GenIE: Generative Information Extraction

Die strukturierte und fundierte Darstellung von Text wird typischerweise durch geschlossene Informationsextraktion formalisiert, wobei es darum geht, eine erschöpfende Menge an (Subjekt, Relation, Objekt)-Tripeln zu extrahieren, die mit einem vordefinierten Satz an Entitäten und Relationen aus einer Wissensbasenschema konsistent sind. Die meisten bestehenden Ansätze basieren auf Pipeline-Architekturen, die anfällig für Fehlerakkumulation sind, und alle Verfahren sind nur auf unrealistisch kleine Mengen an Entitäten und Relationen anwendbar. Wir stellen GenIE (generative information extraction) vor, die erste end-to-end-autoregressive Formulierung der geschlossenen Informationsextraktion. GenIE nutzt auf natürliche Weise die Sprachkenntnisse von vortrainierten Transformers, indem sie Relationen und Entitäten in Textform autoregressiv generiert. Durch eine neuartige zweistufige, constraint-basierte Generierungsstrategie werden ausschließlich Tripel erzeugt, die mit dem vordefinierten Wissensbasenschema konsistent sind. Unsere Experimente zeigen, dass GenIE den aktuellen Stand der Technik in der geschlossenen Informationsextraktion erreicht, sich mit weniger Trainingsdatenpunkten besser generalisiert als Baselines und sich auf bisher unhandhabbare Zahlen von Entitäten und Relationen skaliert. Mit dieser Arbeit wird die geschlossene Informationsextraktion nun praktikabel in realistischen Szenarien, was neue Möglichkeiten für nachgeschaltete Aufgaben eröffnet. Schließlich legt diese Arbeit den Grundstein für einen einheitlichen end-to-end-Ansatz für die zentralen Aufgaben der Informationsextraktion. Code, Daten und Modelle sind unter https://github.com/epfl-dlab/GenIE verfügbar.