XLM-T: نماذج اللغات متعددة اللغات في تويتر لتحليل المشاعر وما بعده

تُعد نماذج اللغة شائعة الانتشار في معالجة اللغة الطبيعية الحالية، وقد لاقت قدرتها متعددة اللغات اهتمامًا متزايدًا في الآونة الأخيرة. ومع ذلك، ركزت التحليلات الحالية تقريبًا بشكل حصري على معايير معيارية قياسية (بصيغ متعددة اللغات)، واعتمدت على بيانات تدريب نظيفة ومجاميع بيانات مخصصة للمهام كإشارات متعددة اللغات. في هذه الورقة، نقدّم نموذج XLM-T، وهو نموذج مُصمم لتدريب وتقييم نماذج اللغة متعددة اللغات على منصة تويتر. وتتضمن هذه الورقة ما يلي: (1) قاعدة معيارية قوية جديدة متعددة اللغات، تتكون من نموذج XLM-R (Conneau et al. 2020) المُدرّب مسبقًا على ملايين التغريدات بلغات تتجاوز ثلاثين لغة، بالإضافة إلى رمز مبدئي (starter code) لتمكين التخصيص اللاحق على مهمة مستهدفة؛ و(2) مجموعة من مجموعات بيانات تحليل المشاعر الموحّدة على تويتر بلغات ثمانية مختلفة، ونموذج XLM-T المُعدّل (fine-tuned) عليها.