6 个月前

摘要

关键词提取是指尽可能准确地识别出能够表达文本核心概念的词汇或短语的过程。随着电子基础设施的不断发展，每天每时每刻都在生成大量文本数据。如此庞大的文档体量，使得人力难以对其进行有效阅读与管理。然而，在诸多应用场景中，高效、精准地访问这些文档的需求日益凸显。一篇博客、一篇新闻报道或一份技术笔记，因其内容较为详尽，读者往往依赖关键词或主题来理解其核心内容。本文提出的方法结合了两种特征：图中心性特征与文本特征。该方法通过最优组合多种图中心性指标（如度中心性、介数中心性、特征向量中心性、接近中心性等）以及多种文本特征（如大小写模式、词项位置、词频归一化、词项所在句子的差异性、词性标注等），从候选关键词中筛选出最具有代表性的关键词。此外，研究还尝试将关键词与候选短语区分开来，并分别进行处理，以提升提取效果。为评估所提方法的性能，实验采用了七个公开数据集：Semeval2010、SemEval2017、Inspec、fao30、Thesis100、pak2018 和 Wikinews。评估指标包括精确率（Precision）、召回率（Recall）和 F-值（F-measure）。实验结果表明，与现有文献中的方法相比，本文提出的方法在所有测试数据集上均取得了显著更优的性能。其中，F-值平均提升了约16.9%；在英文数据集Inspec以及非英语语种的Wikinews数据集上，性能提升尤为明显。

源 PDF