AWARE: مجموعة بيانات تحليل المشاعر القائمة على الجوانب لمراجعات التطبيقات لاستخلاص المتطلبات
يُعدّ سوق تطبيقات الهواتف الذكية في تزايد سريع، مما يُشكّل تحديًا أمام مالكي التطبيقات للحفاظ على تحسين منتجاتهم والمنافسة في السوق. إن تحليل ملاحظات المستخدمين يُعدّ عاملاً محوريًا لتحسين المنتجات، حيث يمكن للمُستثمرين الاستفادة منه للحصول على فهم شامل للنجاحات والسلبيات الخاصة بمنتجاتهم، وكذلك منتجات المنافسين. وهذا يُسهم في صياغة متطلبات قائمة على الأدلة وتعزيز أنشطة استخلاص المتطلبات. تُعدّ تحليلات المشاعر القائمة على الجوانب (Aspect-Based Sentiment Analysis - ABSA) فرعًا من فروع تحليل المشاعر، حيث تُحدد الجوانب وتُرتب مشاعر محددة لكل جانب. وعند توفر معلومات حول الجوانب، يُصبح من الممكن فهم الآراء بدقة أكبر، ويعالج هذا النموذج القيود المرتبطة باستخدام التقييم العام للمشاعر. ومع ذلك، لم تُجرَ دراسة مفصلة لمهام ABSA في سياق مراجعات تطبيقات الهواتف الذكية واستخلاص المتطلبات.في هذه الورقة، نقدّم AWARE كمجموعة بيانات معيارية (benchmark dataset) تتضمن 11323 مراجعة لتطبيقات الهواتف الذكية، تم تسمية محتوياتها بجوانب محددة، وفئات جوانب، ومشاعر. تم جمع المراجعات من ثلاث مجالات رئيسية: الإنتاجية، الشبكات الاجتماعية، والألعاب. وتم استخلاص فئات الجوانب لكل مجال باستخدام تحليل المحتوى، وتم التحقق من صحتها مع خبراء المجال من حيث الأهمية، الشمولية، التداخل، ومستوى التفصيل. وتم توزيع عملية التسمية الخاصة بفئات الجوانب والمشاعر على مجموعات من المُستخدمين عبر الإنترنت (crowdsourcing)، مع تنفيذ إجراءات رقابة على الجودة. أما المصطلحات المتعلقة بالجوانب، فقد تم تسميتها باستخدام نهج جزئيًا آليًا قائمة على معالجة اللغة الطبيعية (Natural Language Processing - NLP)، ثم تم التحقق من صحتها من قبل المُصنّفين، ما أدى إلى تحقيق دقة بنسبة 98% في تحديد المصطلحات المتعلقة بالجوانب. وأخيرًا، تم بناء نماذج أولية تعتمد على التعلم الآلي لثلاثة مهام رئيسية: (أ) استخراج مصطلحات الجوانب باستخدام مُصنّف العلامات النحوية (POS tagger)، (ب) تصنيف فئات الجوانب، (ج) تصنيف مشاعر الجوانب، باستخدام كلا النموذجين: آلة الدعم التبادلي (Support Vector Machine - SVM) والشبكة العصبية متعددة الطبقات (Multi-layer Perceptron - MLP).