VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente
{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

Abstract
Diese Arbeit beschreibt VICTOR, einen neuartigen Datensatz, der aus digitalisierten Rechtsdokumenten des brasilianischen Obersten Gerichtshofs zusammengestellt wurde und mehr als 45.000 Rechtsmittel umfasst – insgesamt etwa 692.000 Dokumente, was etwa 4,6 Millionen Seiten entspricht. Der Datensatz enthält annotierte Textdaten und unterstützt zwei Aufgabenarten: Dokumententyp-Klassifikation sowie Themenzuordnung, ein mehrlabel-Problem. Wir präsentieren Baseline-Ergebnisse, die auf Bag-of-Words-Modellen, konvolutionellen neuronalen Netzen, rekurrenten neuronalen Netzen und Boosting-Algorithmen basieren. Zudem experimentieren wir mit linearen Kettenbedingten Zufallsfeldern (linear-chain Conditional Random Fields), um die sequenzielle Struktur der Rechtsfälle auszunutzen, was wir als Verbesserung bei der Dokumententyp-Klassifikation feststellen. Schließlich vergleichen wir einen Ansatz zur Themenklassifikation, bei dem wir mithilfe fachlicher Expertenwissen weniger informative Dokumentseiten ausschließen, mit dem Standardansatz, bei dem alle Seiten verwendet werden. Im Gegensatz zu den Erwartungen der Gerichtsexperten stellen wir fest, dass die Nutzung aller verfügbaren Daten die bessere Methode ist. Wir stellen den Datensatz in drei Varianten unterschiedlicher Größe und Inhalt bereit, um die Entwicklung verbesserter Modelle und Techniken zu fördern.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| multi-label-text-classification-on-bvictor | XGBoost | Average F1: 0.8843 Weighted F1: 0.8957 |
| multi-label-text-classification-on-bvictor | SVM | Average F1: 0.7761 Weighted F1: 0.8235 |
| multi-label-text-classification-on-bvictor | NB | Average F1: 0.6335 Weighted F1: 0.6955 |
| multi-label-text-classification-on-mvictor | SVM | Average F1: 0.6642 Weighted F1: 0.8137 |
| multi-label-text-classification-on-mvictor | NB | Average F1: 0.3797 Weighted F1: 0.6062 |
| multi-label-text-classification-on-mvictor | XGBoost | Average F1: 0.8882 Weighted F1: 0.9072 |
| multi-label-text-classification-on-svictor | SVM | Average F1: 0.8246 Weighted F1: 0.8231 |
| multi-label-text-classification-on-svictor | NB | Average F1: 0.5121 Weighted F1: 0.4875 |
| multi-label-text-classification-on-svictor | XGBoost | Average F1: 0.8887 Weighted F1: 0.8634 |
| text-classification-on-mvictor-type | BiLSTM | Average F1: 0.7092 Weighted F1: 0.9433 |
| text-classification-on-mvictor-type | CNN | Average F1: 0.7061 Weighted F1: 0.9464 |
| text-classification-on-mvictor-type | SVM | Average F1: 0.6792 Weighted F1: 0.9288 |
| text-classification-on-mvictor-type | CNN + CRF | Average F1: 0.7505 Weighted F1: 0.9537 |
| text-classification-on-mvictor-type | NB | Average F1: 0.4772 Weighted F1: 0.8477 |
| text-classification-on-svictor-type | SVM | Average F1: 0.7632 Weighted F1: 0.9425 |
| text-classification-on-svictor-type | BiLSTM | Average F1: 0.7281 Weighted F1: 0.9465 |
| text-classification-on-svictor-type | NB | Average F1: 0.5979 Weighted F1: 0.8893 |
| text-classification-on-svictor-type | CNN + CRF | Average F1: 0.7740 Weighted F1: 0.9533 |
| text-classification-on-svictor-type | CNN | Average F1: 0.7584 Weighted F1: 0.9472 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.