XTREME: معيار متعدد اللغات ومتعدد المهام على نطاق واسع لتقييم التعميم عبر اللغات
لقد دُفِعَت الكثير من التقدم الأخير في تطبيقات نماذج التعلم الآلي على معالجة اللغة الطبيعية (NLP) من خلال معايير تقييم تقيّم النماذج عبر مجموعة واسعة من المهام. ومع ذلك، ظلت هذه المعايير الشاملة محدودة في الغالب باللغة الإنجليزية، ورغم الاهتمام المتزايد بالنماذج متعددة اللغات، ما زال يُعَدّ منсутَاً معيار تقييم شامل يمكّن من تقييم هذه الأساليب بشكل متكامل على مجموعة متنوعة من اللغات والمهام. ولتحقيق هذا الهدف، نقدّم معيار "XTREME"، وهو معيار متعدد المهام لتقييم القدرة على التعميم عبر اللغات للتمثيلات متعددة اللغات، يشمل 40 لغة و9 مهام. ونُظهر أن النماذج التي تُختبر على اللغة الإنجليزية تصل إلى أداء يُعادل الأداء البشري في العديد من المهام، لكن هناك فجوة كبيرة ما زالت قائمة في أداء النماذج التي تُحَوَّل عبر اللغات، خاصةً في المهام المتعلقة بالتركيب النحوي واسترجاع الجمل. كما نلاحظ تباينًا واسعًا في النتائج عبر اللغات المختلفة. وسنُطلق المعيار لتشجيع الأبحاث المتعلقة بأساليب التعلم عبر اللغات التي تُحَوِّل المعرفة اللغوية عبر مجموعة متنوعة وممثلة من اللغات والمهام.