تعلم تنقية البيانات المصنفة ببعيد للتصنيف الكيانات

يمكن استخدام البيانات المُسَمَّة عن بُعد لتوسيع تدريب النماذج الإحصائية، ولكن هذه البيانات عادة ما تكون ملوثة بالضوضاء، والتي يمكن أن تختلف حسب تقنية التسمية عن بُعد. في هذا البحث، نقترح إجراءً من مرحلتين للتعامل مع هذا النوع من البيانات: تنظيفها باستخدام نموذج تم تعلمه، ثم تدريب نموذجنا النهائي على البيانات البعيدة النظيفة والمنقاة باستخدام التدريب الإشرافي القياسي. يتكون نهج التنظيف الخاص بنا من جزأين. أولاً، وظيفة التصفية تتخلص من الأمثلة في البيانات المُسَمَّة عن بُعد التي لا يمكن استخدامها بالكامل. ثانياً، وظيفة إعادة التسمية تقوم بإصلاح العلامات الملطخة بالضوضاء للأمثلة المحتجزة. كل من هذين المكونين هو نموذج تم تعلمه على أمثلة ملوثة اصطناعياً تم إنشاؤها من مجموعة صغيرة مُسَمَّة يدوياً. قمنا بتقصي هذا النهج في مهمة تصنيف الكيانات الدقيقة جداً (ultra-fine entity typing) التي طرحها Choi等人 (2018). يعتبر نموذجنا الأساسي توسيعاً لنموذجهم مع تمثيلات ELMo مسبقة التدريب، مما يحقق أداءً رائداً بالفعل. إضافة بيانات بعيدة تم تنقيتها باستخدام نماذجنا المُتعلمة تعطي زيادة في الأداء فوق هذا النموذج الأساسي، وتتفوق على النماذج التي يتم تدريبها على بيانات بعيدة خام أو بيانات بعيدة تم تنقيتها بشكل تقريدي.