摘要
文本分类是自然语言处理(NLP)诸多应用中的基础性任务。传统文本分类方法通常依赖大量人工设计的特征,例如词典、知识库以及特定的树核(tree kernels)等。与传统方法不同,本文提出一种无需人工设计特征的循环卷积神经网络(recurrent convolutional neural network)用于文本分类。在所提出的模型中,我们引入循环结构,在学习词向量表示时尽可能捕捉上下文信息,相较于传统的基于窗口的神经网络,该方法可显著降低噪声干扰。此外,我们还采用最大池化(max-pooling)层,自动识别在文本分类中起关键作用的词汇,从而有效提取文本中的核心语义成分。我们在四个常用数据集上进行了实验,结果表明,所提出的方法在多个数据集上优于当前最先进的方法,尤其在文档级(document-level)数据集上表现更为突出。