التعرف على الكيانات المسماة عبر اللغات باستخدام السجل المتوازي: نهج جديد باستخدام محاذاة XLM-RoBERTa

نقترح نهجًا جديدًا للاعتراف بالكيانات المسماة (NER) بين اللغات باستخدام البيانات المتوازية. قمنا ببناء نموذج محاذاة كيانات على أساس XLM-RoBERTa لنقل الكيانات المكتشفة في الجزء الإنجليزي من البيانات المتوازية إلى جمل اللغة الهدف، حيث تفوق دقة هذا النموذج على جميع النماذج غير المشرف عليها سابقًا. باستخدام نموذج المحاذاة، يمكننا الحصول على مجموعة بيانات NER مصنفة بشكل زائف في اللغة الهدف لتدريب النموذج الخاص بالمهمة. على عكس استخدام طرق الترجمة، يستفيد هذا النهج من السلاسة الطبيعية والدلالات الدقيقة في سجل اللغة الهدف الأصلي. كما اقترحنا دالة خسارة معدلة مشابهة لخسارة البؤرة (focal loss) ولكنها تعيّن الأوزان في الاتجاه المعاكس لتحسين تدريب النموذج على مجموعة البيانات المصنفة بشكل زائف والمليئة بالأخطاء. قمنا بتقييم هذا النهج المقترح على 4 لغات هدف باستخدام مجموعات بيانات مرجعية وحصلنا على درجات F1 تنافسية مقارنة بأحدث النماذج الرائدة في المجال (SOTA). كما أجرينا مناقشات إضافية حول تأثير حجم السجل المتوازي والمجال على الأداء النهائي للنقل.