17 天前

SEDTWik:基于分割的推文事件检测方法及其在维基百科中的应用

{Neti Lalita Bhanu Murthy, Keval Morabia, Surender Samant, Aruna Malapati}
SEDTWik:基于分割的推文事件检测方法及其在维基百科中的应用
摘要

事件检测是近年来文本挖掘领域备受关注的研究方向,这主要得益于社交媒体数据(尤其是推特数据)的广泛可用性。由于推特广泛使用话题标签(hashtag)以及其字数限制,使得其成为获取现实世界事件信息的重要来源,能够以简洁明了的方式呈现事件动态。然而,以往针对推文的事件检测研究大多仅适用于检测局部事件或突发新闻,往往遗漏大量重要事件。本文系统地分析了从推文中进行事件检测所面临的主要挑战,并提出了一种基于推文分段的事件检测方法——SEDTWik,该方法是对先前工作的扩展,能够从多种类别中识别全球范围内发生的具有新闻价值的事件。其核心思想是将每条推文及其话题标签分割为若干语义片段,提取具有突发性(bursty)特征的片段,对其进行聚类并生成摘要。我们在知名的Events2012语料库上对所提方法进行了评估,结果达到了当前最优水平。关键词:事件检测,推特,社交媒体,微博,推文分段,文本挖掘,维基百科,话题标签