11 天前

基于多义嵌入的文档分类性能提升

Vivek Gupta, Ankit Saw, Pegah Nokhiz, Harshit Gupta, Partha Talukdar
基于多义嵌入的文档分类性能提升
摘要

文本文档的高效表示是众多自然语言处理任务中的关键基础。在长文本分类研究中,已有研究表明,采用词向量的加权平均方法进行句子表示,往往能够超越更为复杂的神经网络模型。最近提出的稀疏复合文档向量(Sparse Composite Document Vector, SCDV)(Mekala 等,2017)将这一思路从句子扩展至文档,通过在词向量上进行软聚类实现文档表示。然而,SCDV 忽视了词语的多义性特征,同时在高维空间中面临维度灾难问题。针对上述局限,本文提出 SCDV-MS 模型。该模型引入多义词嵌入(multi-sense word embeddings),并学习一个低维流形结构,以更好地捕捉文本语义。在多个真实世界数据集上的大量实验表明,SCDV-MS 所生成的嵌入表示在多分类与多标签文本分类任务中均显著优于此前的最先进方法。此外,在文本分类任务中,SCDV-MS 在时间和空间复杂度方面也展现出比 SCDV 更高的效率。

基于多义嵌入的文档分类性能提升 | 最新论文 | HyperAI超神经