HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

VICTOR : un jeu de données pour la classification de documents juridiques brésiliens

{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

VICTOR : un jeu de données pour la classification de documents juridiques brésiliens

Résumé

Cet article présente VICTOR, un nouveau jeu de données construit à partir de documents juridiques numérisés de la Cour suprême du Brésil, comprenant plus de 45 000 pourvois, soit environ 692 000 documents — soit près de 4,6 millions de pages. Ce jeu de données contient des données textuelles étiquetées et supporte deux types de tâches : la classification de type de document et l’affectation de thèmes, un problème à plusieurs étiquettes. Nous présentons des résultats de base obtenus à l’aide de modèles basés sur le « sac de mots », de réseaux de neurones convolutionnels, de réseaux de neurones récurrents et d’algorithmes d’ensemble par boosting. Nous expérimentons également l’utilisation de champs aléatoires conditionnels en chaîne linéaire (linear-chain Conditional Random Fields) afin d’exploiter la nature séquentielle des procédures judiciaires, ce que nous constatons améliore significativement la classification de type de document. Enfin, nous comparons une approche d’affectation de thèmes où nous utilisons des connaissances du domaine pour éliminer les pages moins informatives, à une approche par défaut utilisant toutes les pages. Contrairement aux attentes des experts de la Cour, nous constatons que l’utilisation de l’ensemble des données disponibles s’avère être la méthode la plus efficace. Nous mettons à disposition le jeu de données en trois versions, aux tailles et contenus différents, afin d’encourager l’exploration de modèles et de techniques améliorés.

Benchmarks

BenchmarkMéthodologieMétriques
multi-label-text-classification-on-bvictorXGBoost
Average F1: 0.8843
Weighted F1: 0.8957
multi-label-text-classification-on-bvictorSVM
Average F1: 0.7761
Weighted F1: 0.8235
multi-label-text-classification-on-bvictorNB
Average F1: 0.6335
Weighted F1: 0.6955
multi-label-text-classification-on-mvictorSVM
Average F1: 0.6642
Weighted F1: 0.8137
multi-label-text-classification-on-mvictorNB
Average F1: 0.3797
Weighted F1: 0.6062
multi-label-text-classification-on-mvictorXGBoost
Average F1: 0.8882
Weighted F1: 0.9072
multi-label-text-classification-on-svictorSVM
Average F1: 0.8246
Weighted F1: 0.8231
multi-label-text-classification-on-svictorNB
Average F1: 0.5121
Weighted F1: 0.4875
multi-label-text-classification-on-svictorXGBoost
Average F1: 0.8887
Weighted F1: 0.8634
text-classification-on-mvictor-typeBiLSTM
Average F1: 0.7092
Weighted F1: 0.9433
text-classification-on-mvictor-typeCNN
Average F1: 0.7061
Weighted F1: 0.9464
text-classification-on-mvictor-typeSVM
Average F1: 0.6792
Weighted F1: 0.9288
text-classification-on-mvictor-typeCNN + CRF
Average F1: 0.7505
Weighted F1: 0.9537
text-classification-on-mvictor-typeNB
Average F1: 0.4772
Weighted F1: 0.8477
text-classification-on-svictor-typeSVM
Average F1: 0.7632
Weighted F1: 0.9425
text-classification-on-svictor-typeBiLSTM
Average F1: 0.7281
Weighted F1: 0.9465
text-classification-on-svictor-typeNB
Average F1: 0.5979
Weighted F1: 0.8893
text-classification-on-svictor-typeCNN + CRF
Average F1: 0.7740
Weighted F1: 0.9533
text-classification-on-svictor-typeCNN
Average F1: 0.7584
Weighted F1: 0.9472

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VICTOR : un jeu de données pour la classification de documents juridiques brésiliens | Articles de recherche | HyperAI