HyperAIHyperAI

Command Palette

Search for a command to run...

VICTOR: ein Datensatz für die Klassifikation brasilianischer Rechtsdokumente

Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz

Zusammenfassung

Diese Arbeit beschreibt VICTOR, einen neuartigen Datensatz, der aus digitalisierten Rechtsdokumenten des brasilianischen Obersten Gerichtshofs zusammengestellt wurde und mehr als 45.000 Rechtsmittel umfasst – insgesamt etwa 692.000 Dokumente, was etwa 4,6 Millionen Seiten entspricht. Der Datensatz enthält annotierte Textdaten und unterstützt zwei Aufgabenarten: Dokumententyp-Klassifikation sowie Themenzuordnung, ein mehrlabel-Problem. Wir präsentieren Baseline-Ergebnisse, die auf Bag-of-Words-Modellen, konvolutionellen neuronalen Netzen, rekurrenten neuronalen Netzen und Boosting-Algorithmen basieren. Zudem experimentieren wir mit linearen Kettenbedingten Zufallsfeldern (linear-chain Conditional Random Fields), um die sequenzielle Struktur der Rechtsfälle auszunutzen, was wir als Verbesserung bei der Dokumententyp-Klassifikation feststellen. Schließlich vergleichen wir einen Ansatz zur Themenklassifikation, bei dem wir mithilfe fachlicher Expertenwissen weniger informative Dokumentseiten ausschließen, mit dem Standardansatz, bei dem alle Seiten verwendet werden. Im Gegensatz zu den Erwartungen der Gerichtsexperten stellen wir fest, dass die Nutzung aller verfügbaren Daten die bessere Methode ist. Wir stellen den Datensatz in drei Varianten unterschiedlicher Größe und Inhalt bereit, um die Entwicklung verbesserter Modelle und Techniken zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp