MuLD: معيار الوثائق الطويلة متعددة المهام

التطور الملفت في تقنيات معالجة اللغة الطبيعية (NLP) قد تم دفعه من خلال تطوير مقاييس متعددة المهام مثل GLUE و SuperGLUE. بينما تركز هذه المقاييس على مهام تتضمن جملة واحدة أو اثنتين كمدخلات، فقد شهدنا أعمالًا مثيرة للاهتمام في تصميم تقنيات فعالة لمعالجة المدخلات الأطول بكثير. في هذا البحث، نقدم MuLD: مقاييس جديد للوثائق الطويلة يتكون فقط من وثائق تحتوي على أكثر من 10,000 رمز (token). عن طريق تعديل المهام الموجودة في معالجة اللغة الطبيعية، ننشئ مقاييس متنوع يطلب من النماذج أن تتمكن بنجاح من نمذجة الارتباطات طويلة الأمد في النص. نقيم أداء النماذج الحالية ونجد أن مقاييسنا أكثر تحديًا بكثير من نظيراتها التي تعتمد على الوثائق القصيرة. بالإضافة إلى ذلك، من خلال تقييم كل من المتحولات العادية والفعالة، نظهر أن النماذج ذات طول السياق المتزايد تكون أفضل في حل المهام المعروضة، مما يشير إلى أن التحسينات المستقبلية لهذه النماذج ضرورية لحل مشاكل الوثائق الطويلة المشابهة. نقوم بإصدار البيانات والكود للمعايير الأساسية لتشجيع المزيد من الأبحاث حول النماذج الفعالة لمعالجة اللغة الطبيعية.