17日前

PatternRank:事前学習された言語モデルと品詞を活用した教師なしキーフレーズ抽出

Tim Schopf, Simon Klimek, Florian Matthes
PatternRank:事前学習された言語モデルと品詞を活用した教師なしキーフレーズ抽出
要約

キーフレーズ抽出は、与えられたテキストから最も関連性の高い少数のフレーズを自動的に選択するプロセスである。従来の教師ありキーフレーズ抽出手法は大量のラベル付き学習データを必要とし、学習データのドメイン外では性能が著しく低下するという課題がある。本論文では、事前学習済み言語モデルと品詞情報を利用した、単一ドキュメントからの教師なしキーフレーズ抽出手法であるPatternRankを提案する。実験の結果、PatternRankは従来の最先端手法よりも高い精度(precision)、再現率(recall)、F1スコアを達成した。さらに、候補キーフレーズ選択に用いる品詞パターンを容易にカスタマイズできる「KeyphraseVectorizers」パッケージを提供する。これにより、本手法は任意のドメインに柔軟に適応可能となる。