17 天前

通过特征提取与选择提升问题分类性能

{Le Anh-Cuong, Nguyen Van-Tu}
摘要

问题分类是指针对给定的自然语言问题,预测其回答句所对应的实体类型。该任务在获取或构建准确答案的过程中发挥着重要作用,因而有助于提升自动问答系统的整体性能。以往的研究通常从问题中自动提取词汇、句法和语义等多种特征,用于支持分类任务。然而,将所有这些特征组合使用,并不总能在各类问题上取得最佳效果。与以往研究不同,本文聚焦于如何针对不同类型的问题,有效提取并选择适配的特征。首先,我们提出一种基于特征选择算法的方法,以确定与不同问题类型相匹配的合适特征;其次,我们设计了一种新型特征,该特征基于问题的模式(question patterns)。我们在基准数据集TREC上测试了所提出的方法,并采用支持向量机(SVM)作为分类算法。实验结果表明,该方法在粗粒度和细粒度数据集上的分类准确率分别达到95.2%和91.6%,显著优于以往的研究成果。