HyperAIHyperAI
منذ 17 أيام

مجموعة بيانات استرجاع المقالات القانونية باللغة الفرنسية

Antoine Louis, Gerasimos Spanakis
مجموعة بيانات استرجاع المقالات القانونية باللغة الفرنسية
الملخص

استرجاع المقالات القانونية هو المهمة التي تتمثل في استرجاع تلقائي للمقالات القانونية ذات الصلة بسؤال قانوني. وعلى الرغم من التطورات الحديثة في معالجة اللغة الطبيعية التي أثارت اهتمامًا كبيرًا في العديد من المهام القانونية، ما زال استرجاع المقالات القانونية يُعد مجالًا غير مُستكشَف إلى حد كبير نظرًا لقلة توفر مجموعات بيانات مُعلَّمة كبيرة وعالية الجودة. ولحل هذه العقبة، نقدّم مجموعة بيانات استرجاع المقالات القانونية البلجيكية (BSARD)، التي تتضمن أكثر من 1,100 سؤال قانوني باللغة الفرنسية، تم ترميزها من قبل محامين ذوي خبرة، مع تحديد المقالات ذات الصلة من مجموعة تضم أكثر من 22,600 مقالًا قانونيًا بلجيكيًا. باستخدام مجموعة BSARD، نقوم بمقارنة عدة مناهج حديثة في استرجاع المعلومات، بما في ذلك المعماريات التقليدية (النحوية) والمعماريات الكثيفة (dence)، في بيئات صفرية (zero-shot) وبيئات مُدرَّبة بشكل مراقب. ونجد أن نماذج استرجاع الكثافة المُعدَّلة بدقة (fine-tuned dense retrieval models) تتفوّق بشكل كبير على الأنظمة الأخرى. ويحقق أفضل نموذج أساسي لدينا نتائج بنسبة 74.8% R@100، وهي نتيجة واعدة تُشير إلى إمكانية تنفيذ هذه المهمة، وتُظهر أيضًا وجود مجال واسع للتحسين المستقبلي. وبما أن هذه المجموعة تتميز بالخصوصية في المجال والمهام المُعالَجة، فإن BSARD تمثل مشكلة تحدي فريدة لبحوث مستقبلية في مجال استرجاع المعلومات القانونية. وتم إتاحة مجموعة البيانات والكود المصدري للعامة.