17 天前

基于余弦相似度的文档向量再审视

Zhang Bingyu, Nikolay Arefyev
基于余弦相似度的文档向量再审视
摘要

在IMDB电影评论数据集上,当前最先进的测试准确率(97.42%)由\citet{thongtan-phienthrakul-2019-sentiment}报告,该结果是通过在其论文中提出的基于余弦相似度的文档向量(DV-ngrams-cosine)与朴素贝叶斯权重缩放的N-gram词袋(BON)向量相结合,并训练逻辑回归分类器所获得。尽管基于Transformer的大规模预训练模型在众多数据集和任务上均取得了最先进的性能,但这一相对简单的模型——仅在IMDB数据集上进行预训练——至今仍未被超越。本文揭示了该模型在评估过程中存在一个错误,这一问题是在我们试图分析其在IMDB数据集上表现出色的原因时发现的。我们进一步证明,此前报告的97.42%的测试准确率无效,应更正为93.68%。此外,我们还分析了该模型在不同规模训练数据(即IMDB数据集的不同子集)下的性能表现,并将其与基于Transformer的RoBERTa模型进行了对比。实验结果表明,尽管在大规模训练集上RoBERTa具有明显优势,但在标注训练集极小(仅10或20个文档)的情况下,DV-ngrams-cosine模型的表现反而优于RoBERTa。最后,我们提出了一种基于朴素贝叶斯权重的子采样策略,用于DV-ngrams-cosine模型的训练过程,该策略显著提升了训练速度并优化了模型质量。