تحليل المشاعر للتعليقات الإلكترونية باللغة الأوردو باستخدام نماذج التعلم العميق
تركز معظم الدراسات الحالية على اللغات الشائعة مثل الإنجليزية والإسبانية والصينية واليابانية وغيرها، لكن الانتباه المحدود تم إعطاؤه للغة الأوردو، رغم أن عدد الناطقين بها الأصليين يتجاوز 60 مليون نسمة. في هذا البحث، نُطور نموذجًا قائمًا على التعلم العميق لتحليل المشاعر المعبّرة عنها في هذه اللغة المُهمّشة من حيث الموارد. وقد قمنا بإنشاء مجموعة بيانات مفتوحة المصدر تتكون من 10,008 مراجعات مستمدة من 566 مناقشة عبر الإنترنت حول مواضيع الرياضة والطعام والبرمجيات والسياسة والترفيه. وتتمثل أهداف هذا العمل في (أ) إنشاء مجموعة بيانات مُعلّمة يدويًا لدعم أبحاث تحليل المشاعر في اللغة الأوردو؛ و(ب) قياس أداء النماذج الحديثة باستخدام هذه المجموعة. ولتقييم النماذج، أجرينا دراسات تصنيف ثنائي وثلاثي باستخدام نماذج أخرى، منها: الشبكة العصبية ذات الذاكرة الطويلة والقصيرة (LSTM)، والشبكة العصبية التلافيفية التكرارية (RCNN)، والنموذج القائم على القواعد، ونماذج N-gram، وآلة المتجهات الداعمة (SVM)، والشبكة العصبية التلافيفية (CNN)، ونموذج LSTM. وقد تفوق نموذج RCNN على النماذج القياسية بتحقيق دقة بلغت 84.98% في التصنيف الثنائي، و68.56% في التصنيف الثلاثي. ولتمكين الباحثين الآخرين العاملين في المجال نفسه، قمنا بفتح مصدر مجموعة البيانات والكود المستخدم في هذا البحث.