FILTER: طريقة تحسين للدمج في الفهم اللغوي عبر اللغات

نجحت النماذج اللغوية الكبيرة المتعددة اللغات (LM)، مثل mBERT وUnicoder وXLM، في تحقيق نجاح كبير في تعلم التمثيلات المتعددة اللغات. ومع ذلك، عند تطبيقها على مهام نقل المعرفة بين اللغات بدون تدريب مسبق (zero-shot cross-lingual transfer)، تستخدم معظم الطرق الحالية فقط مدخلات بلغة واحدة لتحسين النموذج (fine-tuning) دون الاستفادة من التوافق المتأصّل بين اللغات المختلفة، والذي يُعدّ ضروريًا لمهام متعددة اللغات. في هذه الورقة، نقترح طريقة مُحسّنة تُسمّى FILTER، التي تستخدم بيانات متعددة اللغات كمدخلات لتحسين نموذج XLM. بشكل محدد، تقوم FILTER بترميز المدخلات النصية بلغة المصدر وترجمتها إلى اللغة الهدف بشكل منفصل في الطبقات السطحية، ثم تُنفّذ عملية دمج بين اللغات لاستخراج المعرفة المتعددة اللغات في الطبقات المتوسطة، قبل إجراء ترميز إضافي مخصص للغة في الطبقات اللاحقة. أثناء الاستدلال، تقوم النموذج بالتنبؤ بناءً على النص المدخل بلغة الهدف وترجمته إلى لغة المصدر. بالنسبة للمهام البسيطة مثل التصنيف، فإن النص المترجم إلى اللغة الهدف يحمل نفس التسمية (label) التي تمتلكها اللغة المصدر. لكن هذه التسمية المشتركة تصبح أقل دقة أو حتى غير متوفرة في المهام الأكثر تعقيدًا مثل الإجابة على الأسئلة، واستخراج الكيانات المعرفية (NER)، وتصنيف الجمل (POS tagging). لمعالجة هذه المشكلة، نقترح لاحقًا خسارة إضافية تعتمد على تباعد كولبومو-ليبلر (KL-divergence) تُستخدم في التدريب الذاتي، استنادًا إلى تسميات افتراضية لينة (soft pseudo-labels) تُولّد تلقائيًا للنصوص المترجمة إلى اللغة الهدف. أظهرت التجارب الواسعة أن FILTER تحقق أفضل أداء مُسجّل (state-of-the-art) على حُزمتين صعبتين متعددة المهام متعددة اللغات، وهما XTREME وXGLUE.