فيكتور: مجموعة بيانات لتصنيف الوثائق القانونية البرازيلية
{Te{\'o}filo Em{\'\i}dio de Campos Pedro Henrique Luz de Araujo Nilton Correia da Silva Fabricio Ataides Braz}

الملخص
يصف هذا البحث مجموعة البيانات VICTOR، وهي مجموعة بيانات جديدة تم إنشاؤها من الوثائق القانونية الرقمية الصادرة عن المحكمة العليا في البرازيل، وتشمل أكثر من 45 ألف طعن، وتتألف من حوالي 692 ألف وثيقة—ما يعادل حوالي 4.6 مليون صفحة. تحتوي المجموعة على بيانات نصية مُصنّفة، وتدعم نوعين من المهام: تصنيف نوع الوثيقة، وتعيين الموضوع، وهي مهمة متعددة التصنيفات. نقدم نتائج أساسية باستخدام نماذج "مجموعة الكلمات" (bag-of-words)، والشبكات العصبية التلافيفية (CNN)، والشبكات العصبية التكرارية (RNN)، وتقنيات التقوية (boosting). كما قمنا بتجربة استخدام الحقول العشوائية الشرطية المتسلسلة (Linear-chain Conditional Random Fields) للاستفادة من الطبيعة التسلسلية للدعاوى القضائية، ووجدنا أن هذا النهج يُسهم في تحسين أداء تصنيف نوع الوثيقة. وأخيرًا، قارنا بين نهج تصنيف الموضوع يستخدم المعرفة الخاصة بالمجال لاستبعاد الصفحات الأقل إفادة، وبين النهج الافتراضي الذي يستخدم جميع الصفحات. وخلافًا لتوقعات خبراء المحكمة، وجدنا أن استخدام جميع البيانات المتاحة هو الطريقة الأفضل. ونُقدّم مجموعة البيانات في ثلاث إصدارات بمقاسات ومضامين مختلفة، بهدف تشجيع البحث عن نماذج وتقنيات أكثر تطورًا.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| multi-label-text-classification-on-bvictor | XGBoost | Average F1: 0.8843 Weighted F1: 0.8957 |
| multi-label-text-classification-on-bvictor | SVM | Average F1: 0.7761 Weighted F1: 0.8235 |
| multi-label-text-classification-on-bvictor | NB | Average F1: 0.6335 Weighted F1: 0.6955 |
| multi-label-text-classification-on-mvictor | SVM | Average F1: 0.6642 Weighted F1: 0.8137 |
| multi-label-text-classification-on-mvictor | NB | Average F1: 0.3797 Weighted F1: 0.6062 |
| multi-label-text-classification-on-mvictor | XGBoost | Average F1: 0.8882 Weighted F1: 0.9072 |
| multi-label-text-classification-on-svictor | SVM | Average F1: 0.8246 Weighted F1: 0.8231 |
| multi-label-text-classification-on-svictor | NB | Average F1: 0.5121 Weighted F1: 0.4875 |
| multi-label-text-classification-on-svictor | XGBoost | Average F1: 0.8887 Weighted F1: 0.8634 |
| text-classification-on-mvictor-type | BiLSTM | Average F1: 0.7092 Weighted F1: 0.9433 |
| text-classification-on-mvictor-type | CNN | Average F1: 0.7061 Weighted F1: 0.9464 |
| text-classification-on-mvictor-type | SVM | Average F1: 0.6792 Weighted F1: 0.9288 |
| text-classification-on-mvictor-type | CNN + CRF | Average F1: 0.7505 Weighted F1: 0.9537 |
| text-classification-on-mvictor-type | NB | Average F1: 0.4772 Weighted F1: 0.8477 |
| text-classification-on-svictor-type | SVM | Average F1: 0.7632 Weighted F1: 0.9425 |
| text-classification-on-svictor-type | BiLSTM | Average F1: 0.7281 Weighted F1: 0.9465 |
| text-classification-on-svictor-type | NB | Average F1: 0.5979 Weighted F1: 0.8893 |
| text-classification-on-svictor-type | CNN + CRF | Average F1: 0.7740 Weighted F1: 0.9533 |
| text-classification-on-svictor-type | CNN | Average F1: 0.7584 Weighted F1: 0.9472 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.