HyperAIHyperAI
vor 17 Tagen

LeNER-Br: Ein Datensatz für die Benennung von Entitäten in brasilianischen Rechtsdokumenten

{Teófilo E. de Campos, Samuel Couto, Pedro H. Luz de Araujo, Paulo Bermejo, Matheus Stauffer, Renato R. R. de Oliveira}
Abstract

Namensentitätenerkennungssysteme verfügen über ein ungenutztes Potenzial, um Informationen aus Rechtsdokumenten zu extrahieren, was die Informationsbeschaffung und Entscheidungsfindungsprozesse verbessern kann. In diesem Artikel wird ein Datensatz für die Namensentitätenerkennung in brasilianischen Rechtsdokumenten vorgestellt. Im Gegensatz zu anderen portugiesischsprachigen Datensätzen besteht dieser Datensatz ausschließlich aus Rechtsdokumenten. Neben den Tags für Personen, Orte, Zeitentitäten und Organisationen enthält der Datensatz zudem spezifische Tags für Gesetzes- und Rechtsfallentitäten. Um eine Reihe von Baseline-Ergebnissen zu etablieren, führten wir zunächst Experimente an einem anderen portugiesischsprachigen Datensatz durch: Paramopama. Diese Evaluation zeigt, dass LSTM-CRF Ergebnisse liefert, die signifikant besser sind als zuvor berichtete Werte. Anschließend retrainierten wir LSTM-CRF auf unserem Datensatz und erzielten F1-Scores von 97,04 % und 88,82 % für Gesetzes- und Rechtsfallentitäten, jeweils. Diese Ergebnisse belegen die Brauchbarkeit des vorgeschlagenen Datensatzes für Anwendungen im juristischen Bereich.