KPI-EDGAR: Ein neuer Datensatz und begleitendes Metrik für die Relationsextraktion aus Finanzdokumenten

Wir stellen KPI-EDGAR vor, einen neuen Datensatz für die gemeinsame Erkennung benannter Entitäten und Relationsextraktion, der auf Finanzberichten basiert, die im Electronic Data Gathering, Analysis, and Retrieval (EDGAR)-System hochgeladen wurden. Das Hauptziel besteht darin, Leistungskennzahlen (Key Performance Indicators, KPIs) aus Finanzdokumenten zu extrahieren und diese mit ihren numerischen Werten und anderen Attributen zu verknüpfen. Des Weiteren bieten wir vier begleitende Baseline-Modelle an, um zukünftige Forschungen abzugleichen. Zudem schlagen wir eine neue Methode zur Messung des Erfolgs dieses Extraktionsprozesses vor, indem wir ein wortbasiertes Gewichtungsverfahren in den konventionellen F1-Score integrieren, um die intrinsisch unscharfen Grenzen von Entitätspaaren in diesem Bereich besser abzubilden.