PromptRank: Unsupervised Keyphrase Extraction Using Prompt

Die Aufgabe der Schlüsselphrasenextraktion bezieht sich auf die automatische Auswahl von Phrasen aus einem gegebenen Dokument, um dessen Kerninhalt zusammenzufassen. Kürzlich wurden state-of-the-art (SOTA)-Ergebnisse durch embeddingsbasierte Algorithmen erreicht, die Kandidaten nach deren Ähnlichkeit mit den Dokument-Embeddings bewerten. Allerdings leiden solche Ansätze entweder unter Diskrepanzen zwischen Dokument- und Kandidatenlänge oder nutzen das vortrainierte Sprachmodell (PLM) ohne zusätzliche Fine-Tuning nicht vollständig aus. Um dieses Problem anzugehen, schlagen wir in diesem Artikel einen einfachen, jedoch effektiven, unsupervisierten Ansatz namens PromptRank vor, der auf einem PLM mit einer Encoder-Decoder-Architektur basiert. Konkret speist PromptRank das Dokument in den Encoder ein und berechnet mit Hilfe des Decoders die Wahrscheinlichkeit, die jeweilige Kandidatenphrase mittels eines vorgeschlagenen Prompts zu generieren. Wir evaluieren PromptRank ausführlich auf sechs weit verbreiteten Benchmarks. PromptRank übertrifft die SOTA-Methode MDERank und verbessert die F1-Score relativ um 34,18 %, 24,87 % und 17,57 % für jeweils 5, 10 und 15 zurückgegebene Ergebnisse. Dies belegt das erhebliche Potenzial der Nutzung von Prompts für die unsupervisierte Schlüsselphrasenextraktion. Wir stellen unseren Code unter https://github.com/HLT-NLP/PromptRank zur Verfügung.