HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

فيكتور: مجموعة بيانات لتصنيف الوثائق القانونية البرازيلية

{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

فيكتور: مجموعة بيانات لتصنيف الوثائق القانونية البرازيلية

الملخص

يصف هذا البحث مجموعة البيانات VICTOR، وهي مجموعة بيانات جديدة تم إنشاؤها من الوثائق القانونية الرقمية الصادرة عن المحكمة العليا في البرازيل، وتشمل أكثر من 45 ألف طعن، وتتألف من حوالي 692 ألف وثيقة—ما يعادل حوالي 4.6 مليون صفحة. تحتوي المجموعة على بيانات نصية مُصنّفة، وتدعم نوعين من المهام: تصنيف نوع الوثيقة، وتعيين الموضوع، وهي مهمة متعددة التصنيفات. نقدم نتائج أساسية باستخدام نماذج "مجموعة الكلمات" (bag-of-words)، والشبكات العصبية التلافيفية (CNN)، والشبكات العصبية التكرارية (RNN)، وتقنيات التقوية (boosting). كما قمنا بتجربة استخدام الحقول العشوائية الشرطية المتسلسلة (Linear-chain Conditional Random Fields) للاستفادة من الطبيعة التسلسلية للدعاوى القضائية، ووجدنا أن هذا النهج يُسهم في تحسين أداء تصنيف نوع الوثيقة. وأخيرًا، قارنا بين نهج تصنيف الموضوع يستخدم المعرفة الخاصة بالمجال لاستبعاد الصفحات الأقل إفادة، وبين النهج الافتراضي الذي يستخدم جميع الصفحات. وخلافًا لتوقعات خبراء المحكمة، وجدنا أن استخدام جميع البيانات المتاحة هو الطريقة الأفضل. ونُقدّم مجموعة البيانات في ثلاث إصدارات بمقاسات ومضامين مختلفة، بهدف تشجيع البحث عن نماذج وتقنيات أكثر تطورًا.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
multi-label-text-classification-on-bvictorXGBoost
Average F1: 0.8843
Weighted F1: 0.8957
multi-label-text-classification-on-bvictorSVM
Average F1: 0.7761
Weighted F1: 0.8235
multi-label-text-classification-on-bvictorNB
Average F1: 0.6335
Weighted F1: 0.6955
multi-label-text-classification-on-mvictorSVM
Average F1: 0.6642
Weighted F1: 0.8137
multi-label-text-classification-on-mvictorNB
Average F1: 0.3797
Weighted F1: 0.6062
multi-label-text-classification-on-mvictorXGBoost
Average F1: 0.8882
Weighted F1: 0.9072
multi-label-text-classification-on-svictorSVM
Average F1: 0.8246
Weighted F1: 0.8231
multi-label-text-classification-on-svictorNB
Average F1: 0.5121
Weighted F1: 0.4875
multi-label-text-classification-on-svictorXGBoost
Average F1: 0.8887
Weighted F1: 0.8634
text-classification-on-mvictor-typeBiLSTM
Average F1: 0.7092
Weighted F1: 0.9433
text-classification-on-mvictor-typeCNN
Average F1: 0.7061
Weighted F1: 0.9464
text-classification-on-mvictor-typeSVM
Average F1: 0.6792
Weighted F1: 0.9288
text-classification-on-mvictor-typeCNN + CRF
Average F1: 0.7505
Weighted F1: 0.9537
text-classification-on-mvictor-typeNB
Average F1: 0.4772
Weighted F1: 0.8477
text-classification-on-svictor-typeSVM
Average F1: 0.7632
Weighted F1: 0.9425
text-classification-on-svictor-typeBiLSTM
Average F1: 0.7281
Weighted F1: 0.9465
text-classification-on-svictor-typeNB
Average F1: 0.5979
Weighted F1: 0.8893
text-classification-on-svictor-typeCNN + CRF
Average F1: 0.7740
Weighted F1: 0.9533
text-classification-on-svictor-typeCNN
Average F1: 0.7584
Weighted F1: 0.9472

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فيكتور: مجموعة بيانات لتصنيف الوثائق القانونية البرازيلية | الأوراق البحثية | HyperAI