HyperAIHyperAI
منذ 2 أشهر

UniTrans: نموذج موحد لنقل النماذج ونقل البيانات للتعرف على الكيانات المسماة بين اللغات باستخدام البيانات غير المصنفة

Qianhui Wu; Zijia Lin; Börje F. Karlsson; Biqing Huang; Jian-Guang Lou
UniTrans: نموذج موحد لنقل النماذج ونقل البيانات للتعرف على الكيانات المسماة بين اللغات باستخدام البيانات غير المصنفة
الملخص

البحوث السابقة في التعرف على الكيانات المسماة بين اللغات (NER) بوجود بيانات مصنفة قليلة أو غير موجودة تنقسم إلى فئتين رئيسيتين: طرق نقل النموذج وطرق نقل البيانات. في هذا البحث، نجد أن كلا النوعين من الطرق يمكن أن يكمل بعضه البعض، حيث يمكن للنوع الأول استغلال معلومات السياق عبر خصائص مستقلة عن اللغة ولكنه لا يرى أي معلومات خاصة بالمهمة في اللغة المستهدفة؛ بينما يقوم النوع الثاني عادة بإنشاء بيانات تدريبية زائفة للغة المستهدفة عبر الترجمة ولكن استغلاله لمعلومات السياق يضعف بسبب الترجمات غير الدقيقة. بالإضافة إلى ذلك، فإن البحوث السابقة نادراً ما تستفيد من البيانات غير المصنفة في اللغة المستهدفة، والتي يمكن جمعها بسهولة وقد تحتوي على معلومات قيمة لتحسين النتائج. لمعالجة هذين المشكلتين، نقترح منهجاً جديداً يُسمى UniTrans لتوحيد كل من نقل النموذج ونقل البيانات للتعرف على الكيانات المسماة بين اللغات، وكذلك لاستغلال المعلومات المتاحة من البيانات غير المصنفة في اللغة المستهدفة عبر تعزيز تقنية تبخير المعرفة (knowledge distillation). قمنا بتقييم UniTrans المقترح على 4 لغات مستهدفة باستخدام مجموعات بيانات معيارية. أظهرت نتائج تجاربنا أنه يتفوق بشكل كبير على الأساليب الرائدة الحالية.

UniTrans: نموذج موحد لنقل النماذج ونقل البيانات للتعرف على الكيانات المسماة بين اللغات باستخدام البيانات غير المصنفة | أحدث الأوراق البحثية | HyperAI