Effektive hierarchische Informationsverkettung mittels Netzwerk-Community-Detektion
Mit dem enormen Anstieg des an Online-Plattformen täglich generierten Informationsvolumens (z. B. Nachrichtenartikel) besteht ein dringender Bedarf an automatisierten Methoden, um im Laufe der Zeit sich entwickelnde Ereignisse zuverlässig zu verfolgen und verwandte Informationen zu identifizieren (d. h. Informationsstränge). In dieser Arbeit präsentieren wir einen neuartigen, unsupervisierten Ansatz namens HINT, der kohärente hierarchische Informationsstränge identifiziert. Diese Stränge ermöglichen es Benutzern, eine hierarchische Beziehung zwischen unterschiedlichen, sich entwickelnden Informationen zu einem Ereignis oder einer Diskussion leicht zu verstehen. Insbesondere setzt HINT eine skalierbare Architektur auf Basis der Gemeinschaftserkennung in Netzwerken ein, um hierarchische Verbindungen zwischen Dokumenten effizient auf Basis ihrer chronologischen Relevanz sowie der Antworten auf die 5W1H-Fragen (d. h. wer, was, wo, wann, warum und wie) zu erkennen. Auf der NewSHead-Datenbank zeigen wir, dass HINT bestehende state-of-the-art-Verfahren deutlich übertrifft, was die Qualität der identifizierten Stränge betrifft. Außerdem führten wir eine Benutzerstudie durch, die ergab, dass die von uns vorgeschlagenen netzwerkbasierten hierarchischen Stränge signifikant (p < 0,05) bevorzugt werden gegenüber sequenziellen Strängen, die auf Clustering basieren.