FRAKE:融合型リアルタイム自動キーワード抽出

キーワード抽出は、テキストの主要な概念をできるだけ正確に表現する単語または語句を特定するプロセスである。電子インフラストラクチャは毎日、あらゆる時間帯に膨大な量のテキストを生成している。このような巨量の文書群は、人間のリソースがそれらを効果的に分析・管理することは実質的に不可能である。しかし、これらの文書を効率的かつ効果的にアクセスする必要性は、多様な用途において顕著である。ブログ記事、ニュース記事、技術ノートなどは、読者がキーワードやトピックに基づいて主題を理解することを目的としているため、相対的に長文と見なされる。本研究では、グラフ中心性特徴とテクスチャ特徴の二つのモデルを組み合わせたアプローチを提案する。本手法は、次数(degree)、中介性(betweenness)、固有ベクトル中心性(eigenvector centrality)、接近性中心性(closeness centrality)などのグラフ中心性と、キャスティング(Casing)、語の位置(Term position)、語の頻度正規化(Term frequency normalization)、文内での差分(Term different sentence)、品詞タグ付け(Part Of Speech tagging)などのテクスチャ特徴を最適な組み合わせで統合し、候補キーワードの中から最も適切なキーワードを抽出することを目的としている。また、候補語句からキーワードを区別し、それぞれを独立したキーワードとして扱う試みも行われている。提案手法の評価には、Semeval2010、SemEval2017、Inspec、fao30、Thesis100、pak2018、Wikinewsの7つのデータセットを用い、精度(Precision)、再現率(Recall)、F-スコア(F-measure)を指標として結果を報告した。評価結果によれば、本手法は文献に報告された既存手法と比較して、すべての検証データセットにおいて評価指標で顕著な優位性を示した。特にFスコアでは約16.9%の向上が確認され、英語データセットにおけるInspecおよび外国語データセットにおけるWikinewsでは、さらに顕著な改善が見られた。