
摘要
近期用于短文本聚类的技术通常依赖于词嵌入作为迁移学习组件。本文表明,结合不同的聚类方法,Transformer 模型生成的句子向量表示可以成功应用于解决该任务。此外,我们还证明了通过迭代分类增强聚类的算法可以进一步提高初始聚类性能,所使用的分类器包括基于预训练 Transformer 语言模型的分类器。
近期用于短文本聚类的技术通常依赖于词嵌入作为迁移学习组件。本文表明,结合不同的聚类方法,Transformer 模型生成的句子向量表示可以成功应用于解决该任务。此外,我们还证明了通过迭代分类增强聚类的算法可以进一步提高初始聚类性能,所使用的分类器包括基于预训练 Transformer 语言模型的分类器。