الفهم الآلي متعدد اللغات القائم على BERT في اللغة الإنجليزية والهندية

الفهم الآلي متعدد اللغات (MMC) هو فرع من مهام الإجابة على الأسئلة (QA) ينطوي على استخراج إجابة لسؤال من نص معين، حيث يمكن أن يكون السؤال والنص بلغتين مختلفتين. النسخة متعددة اللغات من BERT (m-BERT)، التي تم تدريبها مسبقًا على 104 لغة، أظهرت أداءً جيدًا في كلا السياقين اللذين لا يتضمنان التعلم الموجه (zero-shot) وفي السياق الذي يتضمنه (fine-tuned) للمهام المتعددة اللغات؛ ومع ذلك، لم يتم استخدامها بعد في الفهم الآلي متعدد اللغات بين الإنجليزية والهندية. لذلك، نقدم في هذا المقال تجاربنا باستخدام m-BERT لـ MMC في سياقات التعلم الموجه غير الموجودة سابقًا (zero-shot)، ووحدية اللغة (مثل: سؤال هندي - نص هندي)، والمتعددة اللغات (مثل: سؤال إنجليزي - نص هندي). يتم تقييم هذه النماذج المتغيرة في جميع الإعدادات المتعددة اللغات المحتملة ويتم مقارنة النتائج مع أفضل نظام إجابة تتابعي حالي للأسئلة بهذه اللغات. أظهرت التجارب أن m-BERT، مع التعلم الموجه، تحسن الأداء في جميع إعدادات التقييم عبر كلتا مجموعة البيانات المستخدمة من قبل النموذج السابق، مما يجعل m-BERT أساس الفهم الآلي متعدد اللغات الجديد كأفضل ما وصل إليه العلم للإنجليزية والهندية. كما ننشر أيضًا نتائجنا على نسخة موسعة من مجموعة بيانات XQuAD التي اقترحتها مؤخرًا لاستخدامها كمعيار تقييم لأبحاث المستقبل.