Command Palette
Search for a command to run...
Abstraktive Snippet-Generierung
Abstraktive Snippet-Generierung
Wei-Fan Chen Shahbaz Syed Benno Stein Matthias Hagen Martin Potthast
Zusammenfassung
Ein abstraktiver Snippet ist ein ursprünglich erstellter Textabschnitt, der dazu dient, eine Webseite auf einer Suchmaschinen-Ergebnisseite zusammenzufassen. Im Gegensatz zu herkömmlichen extraktiven Snippets, die durch direktes Auszugsverfahren von Phrasen und Sätzen aus der jeweiligen Webseite generiert werden, umgehen abstraktive Snippets Urheberrechtsprobleme; noch interessanter ist jedoch die Tatsache, dass sie die Tür zur Personalisierung öffnen. Abstraktive Snippets wurden in Bezug auf Benutzerakzeptanz und Ausdruckskraft als gleichwertig gegenüber extraktiven Snippets bewertet – doch die zentrale Frage bleibt: Können abstraktive Snippets automatisiert mit ausreichender Qualität generiert werden?Diese Arbeit stellt einen neuen Ansatz zur Generierung abstraktiver Snippets vor: Wir identifizieren die ersten beiden großskaligen Quellen für distant supervision, nämlich Anchor-Kontexte und Webverzeichnisse. Durch die Auswertung des gesamten ClueWeb09 und ClueWeb12 hinsichtlich Anchor-Kontexte sowie durch die Nutzung des DMOZ Open Directory Project erstellen wir die Webis Abstractive Snippet Corpus 2020, die mehr als 3,5 Millionen Tripel der Form ⟨query, snippet, document⟩ als Trainingsbeispiele umfasst, wobei der Snippet entweder ein Anchor-Kontext oder eine Webverzeichnisbeschreibung – anstelle eines echten, suchanfrage-basierten abstraktiven Snippets der Webseite – darstellt. Wir schlagen ein bidirektionales Modell zur abstraktiven Snippet-Generierung vor und bewerten sowohl die Qualität unseres Korpus als auch die der generierten abstraktiven Snippets mittels Standardmaße, Crowdsourcing und Vergleich mit dem Stand der Technik. Die Evaluation zeigt, dass unsere neuartigen Datensätze zusammen mit dem vorgeschlagenen Modell die Erzeugung nutzbarer, suchanfrage-basierter abstraktiver Snippets ermöglichen, wobei der Textwiederverwendung weitgehend minimiert wird.