HyperAIHyperAI
vor 17 Tagen

SEDTWik: Segmentierungsbasierte Ereigniserkennung aus Tweets unter Verwendung von Wikipedia

{Neti Lalita Bhanu Murthy, Keval Morabia, Surender Samant, Aruna Malapati}
SEDTWik: Segmentierungsbasierte Ereigniserkennung aus Tweets unter Verwendung von Wikipedia
Abstract

Die Ereigniserkennung gehört zu den Forschungsbereichen im Bereich des Textminings, die in diesem Jahrzehnt aufgrund der weit verbreiteten Verfügbarkeit von Social-Media-Daten – insbesondere Twitter-Daten – erhebliche Aufmerksamkeit erlangt haben. Twitter ist aufgrund der Verwendung von Hashtags und der begrenzten Wortanzahl pro Tweet zu einer zentralen Informationsquelle für Ereignisse in der realen Welt geworden, da diese Struktur eine präzise und knappe Darstellung von Ereignissen ermöglicht. Bisherige Ansätze zur Ereigniserkennung aus Tweets sind entweder nur für die Erkennung lokalisierter Ereignisse oder von Breaking News geeignet oder lassen zahlreiche wichtige Ereignisse unberücksichtigt. In diesem Artikel werden die Herausforderungen der Ereigniserkennung aus Tweets analysiert und ein auf Tweet-Segmentierung basierendes System zur Ereigniserkennung vorgestellt, namens SEDTWik, eine Erweiterung einer vorherigen Arbeit. Das System ist in der Lage, neueswerte Ereignisse aus einer Vielzahl von Kategorien, die sich an unterschiedlichen Orten weltweit abspielen, zu erkennen. Der zentrale Ansatz besteht darin, jeden Tweet und jeden Hashtag in Segmente zu zerlegen, burst-artige Segmente zu extrahieren, diese zu clustern und anschließend zu summarisieren. Die Evaluierung unserer Ergebnisse erfolgte anhand der etablierten Events2012-Datenbank, wobei Ergebnisse auf State-of-the-Art-Niveau erzielt wurden. Stichworte: Ereigniserkennung, Twitter, Soziale Medien, Mikroblogging, Tweet-Segmentierung, Textmining, Wikipedia, Hashtag.