HyperAIHyperAI
منذ 15 أيام

متى تُفيد التدريب المسبق؟ تقييم التعلم المستقل للإشراف في مجال القانون وبيانات CaseHOLD

Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel E. Ho
متى تُفيد التدريب المسبق؟ تقييم التعلم المستقل للإشراف في مجال القانون وبيانات CaseHOLD
الملخص

بينما حققت التعلم ذاتي التوجيه تقدماً سريعاً في معالجة اللغة الطبيعية، لا يزال غير واضح متى ينبغي للباحثين الالتزام بتدريب مسبق متخصص في مجال معين (التدريب المسبق للمجال)، وهو ما يتطلب موارد كبيرة. فبالرغم من أن اللغة القانونية تُعتبر على نطاق واسع فريدة، فإن هذه الدراسة لم تُسجّل سوى حالات قليلة من المكاسب الملموسة الناتجة عن التدريب المسبق للمجال. ونفترض أن هذه النتائج الحالية تنبع من حقيقة أن المهام الحالية في معالجة اللغة القانونية تكون سهلة جداً، ولا تستوفي الشروط اللازمة لكي يُفيد التدريب المسبق للمجال. ولحل هذه المشكلة، نقدم أولًا مجموعة بيانات جديدة تُسمى CaseHOLD (Case Holdings On Legal Decisions)، والتي تتضمن أكثر من 53,000 سؤال متعدد الخيارات، تهدف إلى تحديد الحكم المُستند إليه في قضية مُشار إليها. تمثل هذه المجموعة مهمة أساسية للمحامين، وهي ذات معنى قانوني واضح، وصعبة من منظور معالجة اللغة الطبيعية (تحقيق F1 قدره 0.4 باستخدام نموذج BiLSTM كأساس). ثانيًا، نقيّم تحسّن الأداء على مجموعة CaseHOLD والمهام الحالية في معالجة اللغة القانونية. بينما يُحسّن بنية المحولات (Transformer) المدربة مسبقاً على مجموعة عامة (كتب جوجل وويكيبيديا) الأداء، فإن التدريب المسبق للمجال (باستخدام مجموعة تضم حوالي 3.5 مليون حكم من جميع المحاكم في الولايات المتحدة، وهي أكبر من مجموعة التدريب المسبق لـ BERT) باستخدام قاموس قانوني مخصص يُظهر أفضل تحسينات أداء على CaseHOLD (زيادة قدرها 7.2% في F1، ما يمثل تحسناً بنسبة 12% مقارنة بـ BERT)، بالإضافة إلى تحسينات مستمرة في أداء نموذج التحويل على مهام قانونية أخرى. ثالثًا، نُظهر أن التدريب المسبق للمجال قد يكون مبرراً عندما تكون المهمة ذات تشابه كافٍ مع مجموعة التدريب المسبق: فقد أظهرت درجات الأداء في ثلاث مهام قانونية ارتباطاً مباشراً بدرجة التخصص في المجال. تُقدّم نتائجنا إرشادات حول متى ينبغي للباحثين الالتزام بالتدريب المسبق المكثف في الموارد، وتبين أن نماذج القواعد القائمة على المحولات تتعلم أيضًا تمثيلات (embeddings) تشير إلى وجود لغة قانونية مميزة.