2 个月前
词和标签的联合嵌入用于文本分类
Guoyin Wang; Chunyuan Li; Wenlin Wang; Yizhe Zhang; Dinghan Shen; Xinyuan Zhang; Ricardo Henao; Lawrence Carin

摘要
词嵌入(word embeddings)是捕捉词语之间语义规律的有效中间表示,在学习文本序列的表示时尤为有用。本文提出将文本分类视为标签-词联合嵌入问题:每个标签被嵌入到与词向量相同的向量空间中。我们引入了一种注意力框架,用于衡量文本序列与标签之间的嵌入兼容性。该注意力机制在带有标签的训练样本集上进行学习,以确保在给定一个文本序列时,相关词语的权重高于无关词语。我们的方法保留了词嵌入的可解释性,并且具备利用除输入文本序列之外的其他信息源的能力。在多个大规模文本数据集上的广泛实验结果表明,所提出的框架在准确性和速度方面均大幅优于现有最先进方法。