MuMiN: مجموعة بيانات كبيرة النطاق متعددة اللغات متعددة الوسائط مُختَبَرة بالحقائق حول الشبكات الاجتماعية للإفادة المضللة

تُعد المعلومات المضللة ظاهرة متزايدة الانتشار على وسائل التواصل الاجتماعي والمقالات الإخبارية. أصبحت هذه الظاهرة شائعة لدرجة أننا نحتاج إلى مساعدة خوارزمية تُعتمد على التعلم الآلي للكشف عن هذا المحتوى. ويتطلب تدريب نماذج التعلم الآلي هذه مجموعات بيانات بحجم وتنوع ونوعية كافية. ومع ذلك، فإن مجموعات البيانات في مجال الكشف التلقائي عن المعلومات المضللة تُعد في الغالب ثنائية اللغة، وتضم كمًا محدودًا من الأشكال (النماذج) الإعلامية، ولا تصل إلى الحجم أو الجودة المطلوبين. وللتصدي لهذا التحدي، نطور نظامًا لجمع البيانات وربطها (MuMiN-trawl)، بهدف إنشاء مجموعة بيانات عامة حول الرسوم البيانية للمعلومات المضللة (MuMiN)، تتضمن بيانات واسعة من وسائل التواصل الاجتماعي (مثل التغريدات، والردود، والمستخدمين، والصور، والمقالات، والهاشتاغات)، تغطي 21 مليون تغريدة تنتمي إلى 26 ألف سلسلة تغريدات على تويتر، حيث تم ربط كل سلسلة بشكل معنوي بـ 13 ألف ادعاء تم التحقق من صحته عبر عشرات المواضيع والأحداث والقطاعات، بـ 41 لغة مختلفة، تمتد لأكثر من عقد من الزمن. تُقدَّم هذه المجموعة كرسم بياني غير متجانس من خلال حزمة برمجية لغة بايثون (mumin). كما نقدِّم نتائج أولية لمهام تصنيف عقدتين متعلقة بصدق الادعاءات المرتبطة بوسائل التواصل الاجتماعي، ونُظهر أن هذه المهام تمثل تحديات كبيرة، حيث بلغ أعلى متوسط لمعيار F1 62.55% و61.45% على التوالي في المهمتين. يُتاح نظام MuMiN عبر الموقع الإلكتروني: https://mumin-dataset.github.io/، والذي يشمل البيانات، والتوثيق، والدروس التعليمية، وقوائم التصنيف (Leaderboards).