16 天前

基于词嵌入正则化与软相似性度量的文本分类

Vít Novotný, Eniafe Festus Ayetiran, Michal Štefánik, Petr Sojka
基于词嵌入正则化与软相似性度量的文本分类
摘要

自Mikolov等人开创性工作以来,词嵌入(word embeddings)已成为众多自然语言处理任务中首选的词表示方法。基于词嵌入提取的文档相似性度量方法,如软余弦相似度(Soft Cosine Measure, SCM)和词移动距离(Word Mover’s Distance, WMD),在语义文本相似性和文本分类任务中均被报道达到了当时最先进的性能。尽管WMD在文本分类和语义文本相似性任务中表现优异,但其平均时间复杂度为超三次方(super-cubic),在实际应用中难以承受。SCM虽具有二次方最坏时间复杂度,但其在文本分类任务中的性能尚未与WMD进行过系统比较。近期,两项词嵌入正则化技术被证明能够有效降低存储与内存开销,提升训练速度、文档处理速度,并在词类比、词相似性及语义文本相似性等任务上改善模型性能。然而,这些技术对文本分类任务的影响尚未得到研究。在本研究中,我们系统探究了上述两项词嵌入正则化技术在单独及联合使用时,对SCM与WMD在文本分类任务中的文档处理速度与任务性能的影响。为评估效果,我们采用k近邻(kNN)分类器,并在六个标准数据集上进行实验:BBCSPORT、TWITTER、OHSUMED、REUTERS-21578、AMAZON与20NEWS。实验结果表明,相较于非正则化词嵌入,使用正则化词嵌入可使kNN分类器的平均测试错误率降低39%。我们提出了一种基于Cholesky分解的实用方法,用于高效生成此类正则化嵌入。此外,我们进一步证明,采用正则化词嵌入的SCM在文本分类任务中的性能显著优于WMD,且其运行速度超过WMD的10,000倍。