HyperAIHyperAI
il y a 2 mois

VICTOR : un jeu de données pour la classification de documents juridiques brésiliens

{Te{\'o}filo Em{\'\i}dio de Campos, Pedro Henrique Luz de Araujo, Nilton Correia da Silva, Fabricio Ataides Braz}
VICTOR : un jeu de données pour la classification de documents juridiques brésiliens
Résumé

Cet article présente VICTOR, un nouveau jeu de données construit à partir de documents juridiques numérisés de la Cour suprême du Brésil, comprenant plus de 45 000 pourvois, soit environ 692 000 documents — soit près de 4,6 millions de pages. Ce jeu de données contient des données textuelles étiquetées et supporte deux types de tâches : la classification de type de document et l’affectation de thèmes, un problème à plusieurs étiquettes. Nous présentons des résultats de base obtenus à l’aide de modèles basés sur le « sac de mots », de réseaux de neurones convolutionnels, de réseaux de neurones récurrents et d’algorithmes d’ensemble par boosting. Nous expérimentons également l’utilisation de champs aléatoires conditionnels en chaîne linéaire (linear-chain Conditional Random Fields) afin d’exploiter la nature séquentielle des procédures judiciaires, ce que nous constatons améliore significativement la classification de type de document. Enfin, nous comparons une approche d’affectation de thèmes où nous utilisons des connaissances du domaine pour éliminer les pages moins informatives, à une approche par défaut utilisant toutes les pages. Contrairement aux attentes des experts de la Cour, nous constatons que l’utilisation de l’ensemble des données disponibles s’avère être la méthode la plus efficace. Nous mettons à disposition le jeu de données en trois versions, aux tailles et contenus différents, afin d’encourager l’exploration de modèles et de techniques améliorés.