MuCoT: تدريب تناقضي متعدد اللغات للإجابة على الأسئلة في اللغات منخفضة الموارد

تحسّن دقة أنظمة الإجابة على الأسئلة باللغة الإنجليزية بشكل كبير في السنوات الأخيرة بفضل ظهور نماذج مبنية على المُحَوِّل (Transformer)، مثل BERT. إذ تُدرَّب هذه النماذج مسبقًا بطريقة ذاتية التدريب باستخدام كميات ضخمة من النصوص الإنجليزية، ثم تُعدّل دقيقًا باستخدام مجموعات بيانات ضخمة للإجابة على الأسئلة باللغة الإنجليزية (مثل SQuAD). ومع ذلك، لا تتوفر مجموعات بيانات للإجابة على الأسئلة بهذا الحجم لمعظم اللغات الأخرى. تُستخدم غالبًا نماذج BERT متعددة اللغات (mBERT) لنقل المعرفة من اللغات ذات الموارد الغنية إلى اللغات ذات الموارد المحدودة. وبما أن هذه النماذج تُدرَّب مسبقًا باستخدام كميات هائلة من النصوص التي تضم العديد من اللغات، فإنها تتعلم عادة تمثيلات عامة للغات (language-agnostic embeddings) للرموز (tokens) من لغات مختلفة. ومع ذلك، فإن تدريب نظام للإجابة على الأسئلة مبني على mBERT مباشرة للغات ذات الموارد المحدودة يُعدّ تحديًا بسبب قلة بيانات التدريب. في هذا العمل، نُكمل عينات الإجابة على الأسئلة للغة الهدف من خلال الترجمة والتحويل الصوتي (transliteration) إلى لغات أخرى، ثم نستخدم البيانات المُكملة لتعديل نموذج mBERT للإجابة على الأسئلة، والذي تم بالفعل تدريبه مسبقًا باللغة الإنجليزية. تُظهر التجارب على مجموعة بيانات Google ChAII أن تعديل نموذج mBERT باستخدام ترجمات من نفس العائلة اللغوية يعزز أداء الإجابة على الأسئلة، في حين أن الأداء ينخفض عند استخدام ترجمات من عائلات لغوية مختلفة. كما نُظهر أن إدخال خسارة تقابلية (contrastive loss) بين أزواج الميزات المترجمة للسؤال والنص (question-context) أثناء عملية التعديل يمنع هذا الانخفاض الناتج عن الترجمات عبر العائلات اللغوية، ويؤدي إلى تحسين طفيف. يُتاح الكود الخاص بهذا العمل عبر الرابط: https://github.com/gokulkarthik/mucot.