SubRegWeigh: تقييم فعال وكفؤ للشواهد باستخدام التسوية الفرعية للكلمات

قد تحتوي مجموعات البيانات في معالجة اللغة الطبيعية (NLP) على أخطاء في التسمية حتى عند تسميتها يدويًا. حاول الباحثون تطوير طرق لتخفيض الأثر السلبي لهذه الأخطاء بشكل آلي. ومع ذلك، فإن الطرق الحالية تستغرق وقتًا طويلًا لأنها تتطلب العديد من النماذج المدربة لاكتشاف الأخطاء. تقترح هذه الورقة البحثية طريقة توفير الوقت تستخدم تقنية تجزئة الكلمات تُعرف بـ "التقنين الفرعي للكلمات" (subword regularization) لمحاكاة عدة نماذج لاكتشاف الأخطاء. يمكن لمETHOD المقترحة لدينا، SubRegWeigh، أن تقوم بتوزيع وزن التسميات أربع إلى خمس مرات أسرع من الطرق الحالية. بالإضافة إلى ذلك، ساهمت SubRegWeigh في تحسين الأداء في مهام تصنيف الوثائق وتحديد الكيانات المسماة. وفي التجارب التي أجريت باستخدام التسميات الخاطئة الوهمية، تمكنت SubRegWeigh من تحديد هذه التسميات بوضوح كأخطاء في التسمية. رمز البرمجة الخاص بنا متاح على الرابط: https://github.com/4ldk/SubRegWeigh .