HyperAIHyperAI
vor 17 Tagen

PatternRank: Nutzung vortrainierter Sprachmodelle und Wortarten für die annotierungsarme Schlüsselbegriffsextraktion

Tim Schopf, Simon Klimek, Florian Matthes
PatternRank: Nutzung vortrainierter Sprachmodelle und Wortarten für die annotierungsarme Schlüsselbegriffsextraktion
Abstract

Die Schlüsselbegriffsextraktion ist der Prozess der automatischen Auswahl einer kleinen Menge relevanter Phrasen aus einem gegebenen Text. Überwachte Ansätze zur Schlüsselbegriffsextraktion benötigen große Mengen an gelabelten Trainingsdaten und erzielen außerhalb des Trainingsdomänenbereichs schlechte Ergebnisse. In diesem Paper stellen wir PatternRank vor, ein Ansatz zur unsupervisierten Schlüsselbegriffsextraktion aus einzelnen Dokumenten, der vortrainierte Sprachmodelle sowie Parts-of-Speech (POS)-Informationen nutzt. Unsere Experimente zeigen, dass PatternRank sowohl höhere Präzision, Recall als auch F1-Scores im Vergleich zu vorherigen state-of-the-art-Verfahren erreicht. Darüber hinaus präsentieren wir das KeyphraseVectorizers-Paket, das eine einfache Anpassung der POS-Muster für die Auswahl von Kandidaten-Schlüsselbegriffen ermöglicht und somit unsere Methode auf beliebige Domänen übertragbar macht.