7日前

PromptRank:プロンプトを用いた教師なしキーフレーズ抽出

Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xiaoyan Bai
PromptRank:プロンプトを用いた教師なしキーフレーズ抽出
要約

キーフレーズ抽出タスクとは、与えられた文書の核心的内容を要約するためのフレーズを自動的に選択するタスクを指す。近年、埋め込み(embedding)に基づくアルゴリズムにより、最先端(SOTA)の性能が達成されており、これらの手法は、候補フレーズの埋め込みと文書全体の埋め込みとの類似度に基づいて、候補をランク付けする。しかし、こうした手法は文書と候補の長さ差に対処しきれず、あるいは微調整(fine-tuning)なしに事前学習済み言語モデル(PLM)を十分に活用できないという課題を抱えている。本論文では、こうした問題を解決するため、エンコーダ・デコーダ構造を持つPLMに基づく、シンプルかつ効果的な非教師ありアプローチ、PromptRankを提案する。具体的には、PromptRankは文書をエンコーダに入力し、デコーダが設計されたプロンプト(prompt)に基づいて候補フレーズを生成する確率を計算する。我々は、6つの広く用いられているベンチマークにおいてPromptRankを広範に評価した。その結果、従来のSOTA手法であるMDERankを上回り、返還結果数が5、10、15の場合それぞれでF1スコアを相対的に34.18%、24.87%、17.57%向上させた。これは、プロンプトを用いた非教師ありキーフレーズ抽出の大きな可能性を示している。本研究のコードは、https://github.com/HLT-NLP/PromptRank にて公開している。

PromptRank:プロンプトを用いた教師なしキーフレーズ抽出 | 最新論文 | HyperAI超神経