11 天前
vONTSS:基于vMF的半监督神经主题建模与最优传输
Weijie Xu, Xiaoyu Jiang, Srinivasan H. Sengamedu, Francis Iannacci, Jinjin Zhao

摘要
近年来,受变分自编码器(Variational Autoencoders, VAEs)启发的神经主题模型(Neural Topic Models, NTMs)受到广泛关注;然而,由于难以有效融入人类先验知识,这类方法在实际应用中仍面临诸多限制。本文提出了一种半监督神经主题建模方法——vONTSS,该方法基于von Mises-Fisher(vMF)分布的变分自编码器,并引入最优传输(Optimal Transport)机制。在提供每主题少量关键词的半监督设定下,vONTSS能够生成具有潜力的主题,并同时优化主题与关键词之间的匹配质量以及主题分类性能。实验结果表明,vONTSS在分类准确率和主题多样性方面均优于现有的半监督主题建模方法。此外,vONTSS也支持无监督主题建模。定量与定性实验显示,在无监督设置下,vONTSS在多个评估维度上均显著优于近期的神经主题模型:其在基准数据集上能够发现高度凝聚且语义连贯的主题。同时,vONTSS的运行速度远超当前最先进的弱监督文本分类方法,而在分类性能上仍保持相当水平。本文进一步从理论上证明了最优传输损失函数与交叉熵损失函数在全局最优解处具有等价性。