SEDTWik : Détection d'événements basée sur la segmentation à partir de tweets en utilisant Wikipedia

La détection d’événements constitue l’un des domaines de recherche en fouille de texte qui a suscité un intérêt croissant au cours de cette décennie, en raison de la disponibilité massive des données provenant des médias sociaux, en particulier des données issues de Twitter. Twitter est devenu une source majeure d’information sur les événements du monde réel grâce à l’utilisation des hashtags et à la limite stricte de mots imposée par la plateforme, qui garantit une présentation concise des faits. Les travaux antérieurs sur la détection d’événements à partir de tweets sont généralement adaptés soit à la détection d’événements locaux, soit à la détection d’informations d’actualité en temps réel, mais négligent souvent de nombreux événements significatifs. Ce papier expose les défis liés à la détection d’événements à partir de tweets et propose un système basé sur la segmentation des tweets, appelé SEDTWik, qui constitue une extension d’un travail antérieur. Ce système est capable de détecter des événements d’actualité se produisant à diverses localisations du globe, couvrant un large éventail de catégories. L’idée principale repose sur la segmentation de chaque tweet et des hashtags, l’extraction des segments à forte activité (bursty segments), leur regroupement par clustering, puis leur synthèse. Nous avons évalué notre approche sur le corpus bien connu Events2012 et obtenu des résultats parmi les meilleurs de l’état de l’art.Mots-clés : Détection d’événements, Twitter, Médias sociaux, Microblogging, Segmentation des tweets, Fouille de texte, Wikipedia, Hashtag.