هوب إيدي: مجموعة بيانات للكشف عن الكلام المُحفِّز بالتفاؤل متعدد اللغات لتعزيز المساواة والتنوع والانتماء

على مدار السنوات القليلة الماضية، تم تطوير أنظمة للتحكم في المحتوى الرقمي وإزالة المحتوى التشهيري أو المسيء أو الذي يحمل خطاباً كراهية. ومع ذلك، فإن الأشخاص في مواقع السلطة يُستخدمون أحيانًا هذا الشكل من الرقابة بشكل غير لائق لعرقلة الحق الديمقراطي في حرية التعبير. ولذلك، أصبح من الضروري أن تتخذ الأبحاث نهجًا تقويميًا إيجابيًا تجاه المحتوى الرقمي الذي يشجع على التفاؤل، ويكون إيجابيًا وداعمًا. حتى الآن، ركزت معظم الدراسات على معالجة مشكلة السلبية في اللغة الإنجليزية، رغم أن المشكلة لا تقتصر فقط على المحتوى الضار. بل تمتد أيضًا ليكون متعدد اللغات. ومن ثم، قمنا ببناء مجموعة بيانات تُسمى "HopeEDI" (محتوى التفاؤل من أجل المساواة والتنوع والاندماج)، تتضمن تعليقات منشأة من قبل المستخدمين من منصة وسائل التواصل الاجتماعي يوتيوب، بواقع 28,451 تعليقًا باللغة الإنجليزية، و20,198 تعليقًا باللغة التاميلية، و10,705 تعليقًا باللغة الماليالامية، وقد تم تسمية هذه التعليقات يدويًا على أنها تحتوي على "محتوى تفاؤل" أو لا. إلى حد معرفتنا، فإن هذه الدراسة هي الأولى من نوعها التي تقوم بتصنيف محتوى التفاؤل من أجل المساواة والتنوع والاندماج في بيئة متعددة اللغات. وقمنا بقياس اتفاقية التصنيف بين المُصنّفين باستخدام معامل كريبندورف ألفا، وقد أظهرت النتائج اتفاقًا عالياً. كما قمنا بإنشاء عدة نماذج أساسية (Baselines) لاختبار مجموعة البيانات الناتجة، وتم التعبير عن النتائج باستخدام مقاييس الدقة (Precision) والدقة الشاملة (Recall) ودقة ف1 (F1-score). وتم إتاحة مجموعة البيانات للجمهور لصالح مجتمع البحث. ونأمل أن يُشجع هذا المورد أبحاثًا مستقبلية أكثر في تعزيز خطاب شامل ومرن يعزز التفاؤل والانتماء الإيجابي.