Identifizierung chronologischer und kohärenter Informationsstränge mithilfe von 5W1H-Fragen und zeitlichen Beziehungen
Aufgrund des enormen Volumens an Artikeln, die täglich online veröffentlicht werden, ist es für Online-Plattformen (z. B. Nachrichtenagenturen) herausfordernd, Informationen zu Ereignissen, Aktivitäten oder Diskussionen ihren Nutzern in einer leicht verdaulichen Form zu präsentieren. Daher besteht ein Bedarf an automatisierten Methoden zur Extraktion von zusammenhängenden, zeitlich geordneten Informationen über Ereignisse (d. h. Informationsstränge) aus großen, unstrukturierten Dokumentenkollektionen. In dieser Arbeit stellen wir einen neuartigen, unsupervisierten hierarchischen agglomerativen Clustering-(HAC)-basierten Ansatz zur Informationsstrangbildung vor, um chronologisch konsistente und zusammenhängende Informationsstränge in einer Dokumentenkollektion zu generieren. Im Gegensatz zu etablierten Aufgaben wie Themen-Erkennung und -Verfolgung oder Ereignis-Strangbildung, die sich auf die Gruppierung von Informationen anhand wichtiger Stichwörter und/oder Entitäten konzentrieren, identifiziert unser vorgeschlagener Ansatz Stränge basierend auf zeitlichen Beziehungen und vielfältigen Informationen zu einem Ereignis, nämlich wer tat was, warum, wo, wann und wie (auch bekannt als die 5W1H-Fragen). Insbesondere setzt unser Ansatz eine maßgeschneiderte Ähnlichkeitsfunktion für das HAC ein, die extrahierte Antworten auf die 5W1H-Fragen sowie einen zeitlichen Abklingeffekt zwischen Dokumenten nutzt. Wir evaluieren unseren vorgeschlagenen HAC 5W1H-Infrastrang-Ansatz an zwei großen, von Experten annotierten Sammlungen von Nachrichtenartikeln, nämlich NewSHead und Multi-News (jeweils über 112.000 und 32.000 Artikel). Unsere Experimente zeigen, dass der HAC 5W1H-Ansatz die Anzahl und vor allem die Qualität der generierten Stränge im Vergleich zu bestehenden state-of-the-art-Verfahren aus der Literatur erheblich verbessert: So erzeugt er beispielsweise auf der größeren NewSHead-Sammlung 100,98 % mehr Stränge und eine Verbesserung von +213,39 % in der Normalisierten Mutual Information gegenüber dem besten evaluierten Baseline. Zudem führten wir eine Benutzerstudie durch, die zeigt, dass unser vorgeschlagener HAC 5W1H-Infrastrang-Ansatz signifikant (p < 0,05) von den Nutzern hinsichtlich Kohärenz, Vielfalt und chronologischer Korrektheit gegenüber bestehenden state-of-the-art-Verfahren bevorzugt wird.