SEDTWik: كشف الحدث القائم على التقسيم من التغريدات باستخدام ويكيبيديا

تمثّل كشف الأحداث واحدة من المجالات البحثية في تعدين النصوص التي لاقت اهتمامًا كبيرًا خلال العقد الأخير، وذلك بسبب التوافر الواسع لبيانات وسائل التواصل الاجتماعي، وبخاصة بيانات تويتر. أصبح تويتر مصدرًا رئيسيًا للمعلومات حول الأحداث الواقعية بفضل استخدام العلامات المرتفعة (Hashtags) وحدّ النص الصغير المسموح به في تويتر، الذي يضمن عرضًا موجزًا للأحداث. وتشمل الدراسات السابقة المتعلقة بكشف الأحداث من التغريدات إما أن تكون قابلة للتطبيق فقط في كشف الأحداث المحلية أو الأخبار العاجلة، أو تُفوّت العديد من الأحداث المهمة. تقدّم هذه الورقة المشاكل المرتبطة بكشف الأحداث من التغريدات، ونظامًا مبنيًا على تقسيم التغريدات يُسمّى SEDTWik، وهو تطوير لعمل سابق، ويُعدّ قادرًا على كشف الأحداث ذات الأهمية التي تحدث في مختلف أنحاء العالم ضمن طيف واسع من الفئات. الفكرة الأساسية تتمثّل في تقسيم كل تغريدة وعلامة مرفوعة إلى أجزاء، واستخراج الأجزاء المتفجّرة (Bursty Segments)، ثم تجميعها وتلخيصها. وقد قُيمت نتائجنا على مجموعة بيانات Events2012 المعروفة عالميًا، وتم تحقيق نتائج تُعدّ من أفضل النتائج الحالية (State-of-the-Art).الكلمات المفتاحية: كشف الأحداث، تويتر، وسائل التواصل الاجتماعي، التدوين المصغر، تقسيم التغريدات، تعدين النصوص، ويكيبيديا، العلامة المرفوعة.