11 天前

一种用于短文本聚类的自训练方法

{Chris Develder, Thomas Demeester, Lucas Sterckx, Amir Hadifar}
一种用于短文本聚类的自训练方法
摘要

在采用传统的词袋(bag-of-words)或TF-IDF表示方法时,短文本聚类是一个极具挑战性的问题,因为这些方法会导致短文本的向量表示过于稀疏。低维连续表示或嵌入(embeddings)能够有效缓解这一稀疏性问题,其强大的表征能力被广泛应用于深度聚类算法中。尽管深度聚类在计算机视觉领域已得到广泛研究,但在自然语言处理(NLP)领域的相关工作仍相对有限。本文提出的方法,通过联合利用自编码器和句子嵌入模型学习具有判别性的特征,并将聚类算法的聚类分配结果作为监督信号,用于更新编码器网络的权重。在三个短文本数据集上的实验结果充分验证了所提方法的有效性。

一种用于短文本聚类的自训练方法 | 最新论文 | HyperAI超神经