HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تنقية البيانات المصنفة ببعيد للتصنيف الكيانات

Yasumasa Onoe Greg Durrett

الملخص

يمكن استخدام البيانات المُسَمَّة عن بُعد لتوسيع تدريب النماذج الإحصائية، ولكن هذه البيانات عادة ما تكون ملوثة بالضوضاء، والتي يمكن أن تختلف حسب تقنية التسمية عن بُعد. في هذا البحث، نقترح إجراءً من مرحلتين للتعامل مع هذا النوع من البيانات: تنظيفها باستخدام نموذج تم تعلمه، ثم تدريب نموذجنا النهائي على البيانات البعيدة النظيفة والمنقاة باستخدام التدريب الإشرافي القياسي. يتكون نهج التنظيف الخاص بنا من جزأين. أولاً، وظيفة التصفية تتخلص من الأمثلة في البيانات المُسَمَّة عن بُعد التي لا يمكن استخدامها بالكامل. ثانياً، وظيفة إعادة التسمية تقوم بإصلاح العلامات الملطخة بالضوضاء للأمثلة المحتجزة. كل من هذين المكونين هو نموذج تم تعلمه على أمثلة ملوثة اصطناعياً تم إنشاؤها من مجموعة صغيرة مُسَمَّة يدوياً. قمنا بتقصي هذا النهج في مهمة تصنيف الكيانات الدقيقة جداً (ultra-fine entity typing) التي طرحها Choi等人 (2018). يعتبر نموذجنا الأساسي توسيعاً لنموذجهم مع تمثيلات ELMo مسبقة التدريب، مما يحقق أداءً رائداً بالفعل. إضافة بيانات بعيدة تم تنقيتها باستخدام نماذجنا المُتعلمة تعطي زيادة في الأداء فوق هذا النموذج الأساسي، وتتفوق على النماذج التي يتم تدريبها على بيانات بعيدة خام أو بيانات بعيدة تم تنقيتها بشكل تقريدي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp