نهج متعدد المقاييس لاقتراح إجراءات التنظيم في مواقع الإجابة على الأسئلة المجتمعية
مع آلاف الأسئلة الجديدة التي تُنشر يوميًا على مواقع الأسئلة والأجوبة الشهيرة، هناك حاجة ملحة إلى حلول برمجية آلية ودقيقة لاستبدال المراقبة اليدوية. في هذه الورقة البحثية، نتناول العيوب الحرجة المرتبطة باستخدام التصويت الجماعي في مهام المراقبة داخل مجتمعات الأسئلة والأجوبة، ونُظهر قدرة تطبيق التحديد الآلي للمراقبة باستخدام أحدث نماذج التعلم الآلي. من الناحية الفنية، نقترح نهجًا متعدد الأوجه يُولّد ثلاث مجموعات مختلفة من الميزات التي تُحلّل السؤال من ثلاث زوايا مختلفة: 1) ميزات مرتبطة بالسؤال، يتم استخلاصها باستخدام نموذج انحدار يعتمد على BERT؛ 2) ميزات مرتبطة بالسياق، تُستخرج باستخدام نموذج تمييز الكيانات الاسمية (Named-Entity Recognition)؛ و3) ميزات لغوية عامة، تُستمد باستخدام أساليب إحصائية وتحليلية. كخطوة أخيرة، ندرّب فئة تصنيف مُعززة بالانحدار (Gradient Boosting Classifier) للتنبؤ بإجراء المراقبة. ولأغراض التقييم، أنشأنا مجموعة بيانات جديدة تضم 60,000 سؤالًا من موقع Stack Overflow، تم تصنيفها إلى ثلاث خيارات ممكنة لإجراءات المراقبة. وباستخدام التحقق المتقاطع على هذه المجموعة الجديدة، بلغت دقة نهجنا 95.6% في المهمة متعددة الفئات، وتفوق جميع النماذج الحالية والأخرى المنشورة سابقًا. تُظهر نتائجنا بوضوح التأثير الكبير لعناصر استخلاص الميزات على النجاح العام للفئة التصنيفية.