HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente

{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente

Abstract

Diese Arbeit beschreibt VICTOR, einen neuartigen Datensatz, der aus digitalisierten Rechtsdokumenten des brasilianischen Obersten Gerichtshofs zusammengestellt wurde und mehr als 45.000 Rechtsmittel umfasst – insgesamt etwa 692.000 Dokumente, was etwa 4,6 Millionen Seiten entspricht. Der Datensatz enthält annotierte Textdaten und unterstützt zwei Aufgabenarten: Dokumententyp-Klassifikation sowie Themenzuordnung, ein mehrlabel-Problem. Wir präsentieren Baseline-Ergebnisse, die auf Bag-of-Words-Modellen, konvolutionellen neuronalen Netzen, rekurrenten neuronalen Netzen und Boosting-Algorithmen basieren. Zudem experimentieren wir mit linearen Kettenbedingten Zufallsfeldern (linear-chain Conditional Random Fields), um die sequenzielle Struktur der Rechtsfälle auszunutzen, was wir als Verbesserung bei der Dokumententyp-Klassifikation feststellen. Schließlich vergleichen wir einen Ansatz zur Themenklassifikation, bei dem wir mithilfe fachlicher Expertenwissen weniger informative Dokumentseiten ausschließen, mit dem Standardansatz, bei dem alle Seiten verwendet werden. Im Gegensatz zu den Erwartungen der Gerichtsexperten stellen wir fest, dass die Nutzung aller verfügbaren Daten die bessere Methode ist. Wir stellen den Datensatz in drei Varianten unterschiedlicher Größe und Inhalt bereit, um die Entwicklung verbesserter Modelle und Techniken zu fördern.

Benchmarks

BenchmarkMethodikMetriken
multi-label-text-classification-on-bvictorXGBoost
Average F1: 0.8843
Weighted F1: 0.8957
multi-label-text-classification-on-bvictorSVM
Average F1: 0.7761
Weighted F1: 0.8235
multi-label-text-classification-on-bvictorNB
Average F1: 0.6335
Weighted F1: 0.6955
multi-label-text-classification-on-mvictorSVM
Average F1: 0.6642
Weighted F1: 0.8137
multi-label-text-classification-on-mvictorNB
Average F1: 0.3797
Weighted F1: 0.6062
multi-label-text-classification-on-mvictorXGBoost
Average F1: 0.8882
Weighted F1: 0.9072
multi-label-text-classification-on-svictorSVM
Average F1: 0.8246
Weighted F1: 0.8231
multi-label-text-classification-on-svictorNB
Average F1: 0.5121
Weighted F1: 0.4875
multi-label-text-classification-on-svictorXGBoost
Average F1: 0.8887
Weighted F1: 0.8634
text-classification-on-mvictor-typeBiLSTM
Average F1: 0.7092
Weighted F1: 0.9433
text-classification-on-mvictor-typeCNN
Average F1: 0.7061
Weighted F1: 0.9464
text-classification-on-mvictor-typeSVM
Average F1: 0.6792
Weighted F1: 0.9288
text-classification-on-mvictor-typeCNN + CRF
Average F1: 0.7505
Weighted F1: 0.9537
text-classification-on-mvictor-typeNB
Average F1: 0.4772
Weighted F1: 0.8477
text-classification-on-svictor-typeSVM
Average F1: 0.7632
Weighted F1: 0.9425
text-classification-on-svictor-typeBiLSTM
Average F1: 0.7281
Weighted F1: 0.9465
text-classification-on-svictor-typeNB
Average F1: 0.5979
Weighted F1: 0.8893
text-classification-on-svictor-typeCNN + CRF
Average F1: 0.7740
Weighted F1: 0.9533
text-classification-on-svictor-typeCNN
Average F1: 0.7584
Weighted F1: 0.9472

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente | Forschungsarbeiten | HyperAI