HyperAIHyperAI
منذ 17 أيام

StEduCov: مجموعة بيانات مُستكشفة ومحسوبة المعايير حول كشف الموقف في التغريدات تجاه التعليم الإلكتروني خلال جائحة كوفيد-19

{Khaled Shaban, Sayed Hamdi, Ali Hamdi, Omama Hamad}
الملخص

في هذه الورقة، نقدّم مجموعة البيانات المُعلّقة StEduCov، المُخصّصة لتحليل المواقف تجاه التعليم عن بُعد خلال جائحة كوفيد-19. تتكوّن مجموعة StEduCov من 16,572 تغريدة جُمعت على مدار 15 شهرًا، من مارس 2020 إلى مايو 2021، باستخدام واجهة برمجة تطبيقات تويتر (Twitter API). تمّ تسمية التغريدات يدويًا ضمن الفئات الثلاث: موافق، معارض، أو محايد. قمنا بإجراء تقييم معياري على هذه المجموعة باستخدام نماذج تعلم آلي حديثة وتقليدية. وبشكل خاص، تمّ تدريب نماذج التعلم العميق مثل: تمثيلات المُشفّر الثنائي من نماذج المحولات (Bidirectional Encoder Representations from Transformers)، والشبكات العصبية الطويلة القصيرة الذاكرة (LSTM)، والشبكات العصبية التلافيفية (CNN)، والنموذج الثنائي القائم على الانتباه (Attention-based biLSTM)، بالإضافة إلى نماذج التعلم الآلي التقليدية مثل: ماكينة التصنيف ذات الاحتمال البسيط (Naive Bayes)، الانحدار اللوجستي، آلات الدعم المتجهة (SVM)، أشجار القرار، وأقرب الجيران (K-nearest neighbor)، والغابة العشوائية (Random Forest). وارتفع متوسط الدقة في تقييم التقسيم العشري (10-fold cross-validation) بين 75% و84.8% في تصنيف المواقف الثنائي، وبين 52.6% و68% في تصنيف المواقف متعددة الفئات، على التوالي. وقد أثرت الأداء سلبًا ارتفاع تداخل المفردات بين الفئات، بالإضافة إلى عدم فعالية التعلم الناقل (transfer learning) عند استخدام النماذج العميقة المُدرّبة مسبقًا على نصوص عامة في مجالات محددة مثل جائحة كوفيد-19 والتعليم عن بُعد.