HyperAIHyperAI
منذ 17 أيام

LeNER-Br: مجموعة بيانات للتعرف على الكيانات الاسمية في النصوص القانونية البرازيلية

{Teófilo E. de Campos, Samuel Couto, Pedro H. Luz de Araujo, Paulo Bermejo, Matheus Stauffer, Renato R. R. de Oliveira}
الملخص

تتمتع أنظمة التعرف على الكيانات المحددة بإمكانات غير مستغلة لاستخراج المعلومات من الوثائق القانونية، مما يمكن أن يُحسّن عمليات استرجاع المعلومات واتخاذ القرار. في هذا البحث، يتم تقديم مجموعة بيانات مخصصة للتعرف على الكيانات المحددة في الوثائق القانونية البرازيلية. على عكس مجموعات البيانات الأخرى باللغة البرتغالية، تتكوّن هذه المجموعة بالكامل من وثائق قانونية. بالإضافة إلى العلامات الخاصة بالأشخاص، والمواضع، والكيانات الزمنية، والمنظمات، تحتوي المجموعة على علامات محددة لكيانات القوانين والقضايا القانونية. ولوضع مجموعة من النتائج الأساسية، قمنا أولاً بإجراء تجارب على مجموعة بيانات برتغالية أخرى تُسمى "Paramopama". أظهرت هذه التقييمات أن نموذج LSTM-CRF يحقق نتائج أفضل بشكل ملحوظ مقارنة بالنتائج المبلغ عنها سابقًا. ثم قمنا بإعادة تدريب نموذج LSTM-CRF على مجموعتنا، وحصلنا على معدلات F1 قدرها 97.04% و88.82% على التوالي لكيانات التشريع والقضايا القانونية. تُظهر هذه النتائج إمكانية استخدام المجموعة المقترحة في التطبيقات القانونية.