Command Palette
Search for a command to run...
VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente
VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente
Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz
Zusammenfassung
Diese Arbeit beschreibt VICTOR, einen neuartigen Datensatz, der aus digitalisierten Rechtsdokumenten des brasilianischen Obersten Gerichtshofs zusammengestellt wurde und mehr als 45.000 Rechtsmittel umfasst – insgesamt etwa 692.000 Dokumente, was etwa 4,6 Millionen Seiten entspricht. Der Datensatz enthält annotierte Textdaten und unterstützt zwei Aufgabenarten: Dokumententyp-Klassifikation sowie Themenzuordnung, ein mehrlabel-Problem. Wir präsentieren Baseline-Ergebnisse, die auf Bag-of-Words-Modellen, konvolutionellen neuronalen Netzen, rekurrenten neuronalen Netzen und Boosting-Algorithmen basieren. Zudem experimentieren wir mit linearen Kettenbedingten Zufallsfeldern (linear-chain Conditional Random Fields), um die sequenzielle Struktur der Rechtsfälle auszunutzen, was wir als Verbesserung bei der Dokumententyp-Klassifikation feststellen. Schließlich vergleichen wir einen Ansatz zur Themenklassifikation, bei dem wir mithilfe fachlicher Expertenwissen weniger informative Dokumentseiten ausschließen, mit dem Standardansatz, bei dem alle Seiten verwendet werden. Im Gegensatz zu den Erwartungen der Gerichtsexperten stellen wir fest, dass die Nutzung aller verfügbaren Daten die bessere Methode ist. Wir stellen den Datensatz in drei Varianten unterschiedlicher Größe und Inhalt bereit, um die Entwicklung verbesserter Modelle und Techniken zu fördern.