FRAKE: Fusional Real-time Automatic Keyword Extraction

Die Schlüsselwortextraktion ist der Prozess der Identifizierung der Wörter oder Ausdrücke, die die zentralen Konzepte eines Textes möglichst präzise widerspiegeln. Die elektronische Infrastruktur erzeugt täglich und ständig eine enorme Menge an Textdaten. Diese riesige Dokumentenmenge macht es für menschliche Ressourcen praktisch unmöglich, sie systematisch zu durchforsten und zu verwalten. Dennoch ist die Notwendigkeit einer effizienten und effektiven Zugriffsmöglichkeit auf diese Dokumente in zahlreichen Anwendungsbereichen offensichtlich. Ein Blogbeitrag, ein Nachrichtenartikel oder ein technischer Notiz wird im Vergleich zu kürzeren Texten als relativ lang angesehen, da der Leser den Inhalt aufgrund von Schlüsselbegriffen oder Themen versteht. Unser Ansatz basiert auf einer Kombination zweier Modelle: Graphenzentralitätsmerkmale und textuelle Merkmale. Die vorgeschlagene Methode wurde eingesetzt, um das beste Schlüsselwort aus einer Menge von Kandidaten zu extrahieren, wobei eine optimale Kombination aus Graphenzentralitätsmaßen – wie Gradzentralität, Zwischenzentralität, Eigenvektorzentralität und Nahbarkeitszentralität – sowie textuellen Merkmalen wie Groß-/Kleinschreibung, Termposition, Termfrequenznormalisierung, Termunterschied zwischen Sätzen und Part-of-Speech-Tagging verwendet wurde. Es wurden auch Versuche unternommen, Schlüsselwörter von Kandidatenausdrücken zu unterscheiden und sie separat zu behandeln. Zur Bewertung der vorgeschlagenen Methode wurden sieben Datensätze verwendet: Semeval2010, SemEval2017, Inspec, fao30, Thesis100, pak2018 und Wikinews, wobei die Ergebnisse als Präzision, Recall und F-Maß berichtet wurden. Unser vorgeschlagener Ansatz erzielte in allen untersuchten Datensätzen signifikant bessere Ergebnisse hinsichtlich der Evaluationsmetriken im Vergleich zu bereits in der Literatur verfügbaren Methoden. Bei der F-Score-Metrik zeigte sich eine Steigerung von etwa 16,9 %, wobei die Verbesserung besonders deutlich bei dem Inspec-Datensatz in Englisch und bei Wikinews in nicht-englischsprachigen Texten war.