CED: Katalogextraktion aus Dokumenten

Die satzweise Informationsextraktion aus langen Dokumenten ist eine mühsame und fehleranfällige Aufgabe. Kataloge, als Indikatoren der Dokumentskelette, gliedern Dokumente natürlicherweise in Segmente und bieten informative kaskadierende Semantiken, die dazu beitragen können, den Suchraum zu reduzieren. Trotz ihrer Nützlichkeit sind Kataloge ohne Unterstützung durch externes Wissen schwer zu extrahieren. Für Dokumente, die einem bestimmten Vorlage folgen, sind reguläre Ausdrücke praktisch zur Extraktion von Katalogen. Allerdings sind manuell erstellte Heuristiken nicht anwendbar, wenn Dokumente mit unterschiedlichen Formaten aus verschiedenen Quellen verarbeitet werden. Um dieses Problem anzugehen, haben wir ein großes manuell annotiertes Korpus erstellt, das den ersten Datensatz für die Aufgabe der Katalogextraktion aus Dokumenten (CED) darstellt. Basierend auf diesem Korpus schlagen wir einen über transitbasierte Verfahren arbeitenden Rahmen zur Analyse von Dokumenten in Katalogbäume vor. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagener Ansatz die Baseline-Systeme übertreffen kann und eine gute Transferfähigkeit aufweist. Wir glauben, dass die CED-Aufgabe die Lücke zwischen Rohdatensegmenten und Informationsextraktionsaufgaben in extrem langen Dokumenten schließen kann. Daten und Code sind unter \url{https://github.com/Spico197/CatalogExtraction} verfügbar.请注意,这里“CED”是“Catalog Extraction from Documents”的缩写,因此在德语中也保留了这个英文缩写。此外,“kaskadierende Semantiken”(级联语义)是一个不太常见的术语,但根据上下文和德语习惯,这样翻译可以较好地传达原意。