HyperAIHyperAI

Command Palette

Search for a command to run...

VICTOR : un jeu de données pour la classification de documents juridiques brésiliens

Te\'ofilo Em\'\idio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz

Résumé

Cet article présente VICTOR, un nouveau jeu de données construit à partir de documents juridiques numérisés de la Cour suprême du Brésil, comprenant plus de 45 000 pourvois, soit environ 692 000 documents — soit près de 4,6 millions de pages. Ce jeu de données contient des données textuelles étiquetées et supporte deux types de tâches : la classification de type de document et l’affectation de thèmes, un problème à plusieurs étiquettes. Nous présentons des résultats de base obtenus à l’aide de modèles basés sur le « sac de mots », de réseaux de neurones convolutionnels, de réseaux de neurones récurrents et d’algorithmes d’ensemble par boosting. Nous expérimentons également l’utilisation de champs aléatoires conditionnels en chaîne linéaire (linear-chain Conditional Random Fields) afin d’exploiter la nature séquentielle des procédures judiciaires, ce que nous constatons améliore significativement la classification de type de document. Enfin, nous comparons une approche d’affectation de thèmes où nous utilisons des connaissances du domaine pour éliminer les pages moins informatives, à une approche par défaut utilisant toutes les pages. Contrairement aux attentes des experts de la Cour, nous constatons que l’utilisation de l’ensemble des données disponibles s’avère être la méthode la plus efficace. Nous mettons à disposition le jeu de données en trois versions, aux tailles et contenus différents, afin d’encourager l’exploration de modèles et de techniques améliorés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp