منذ 2 أشهر
تصنيف النصوص متعددة العلامات على نطاق واسع في التشريعات الأوروبية
Ilias Chalkidis; Manos Fergadiotis; Prodromos Malakasiotis; Ion Androutsopoulos

الملخص
نعتبر تصنيف النصوص متعددة العلامات على نطاق واسع (LSMT) في المجال القانوني. نطلق مجموعة بيانات جديدة تتضمن 57 ألف وثيقة تشريعية من EURLEX، مصحوبة بـ 4.3 ألف علامة EUROVOC، وهي مناسبة لتصنيف النصوص متعددة العلامات على نطاق واسع، التعلم بنقص البيانات والتعلم بدون أمثلة. من خلال تجربة عدة تصنيفات عصبية، نظهر أن BIGRUs مع الانتباه حسب العلامات تؤدي بشكل أفضل من باقي الطرق الرائدة حاليًا. كما تساهم المتجهات WORD2VEC الخاصة بالمجال والمرنة سياقًا لمتجهات ELMO في تحسين الأداء. وقد اكتشفنا أيضًا أن التركيز فقط على أجزاء معينة من الوثائق كافٍ لتحقيق ذلك. هذا يتيح لنا تجاوز حد الطول الأقصى للنص في BERT وضبط BERT بدقة، مما يؤدي إلى الحصول على أفضل النتائج في جميع الحالات باستثناء حالة التعلم بدون أمثلة (zero-shot learning).