
摘要
SentenceMIM 是一种用于语言数据的概率自编码器,采用互信息机器(Mutual Information Machine, MIM)学习方法进行训练,能够将变长的语言观测序列映射为固定长度的表示(类似于变分自编码器,VAE)。以往尝试将 VAE 应用于语言数据时,常因后验坍缩(posterior collapse)问题而面临挑战。MIM 学习通过增强观测数据与潜在变量之间的互信息,有效缓解了后验坍缩问题,从而能够学习到更具信息量的表示,其潜在空间维度可比现有语言 VAE 提高一个数量级。尤为重要的是,SentenceMIM 的损失函数不包含任何超参数,显著简化了优化过程。我们在多个数据集上将 SentenceMIM 与 VAE 和自编码器(AE)进行了对比。实验结果表明,SentenceMIM 在重建性能方面表现优异,与 AE 相当;同时其潜在空间具有丰富的结构化特征,与 VAE 水平相当。通过在不同长度句子之间进行插值,我们直观展示了其潜在表示的结构化特性。此外,我们通过在训练好的模型上直接应用于问答任务和迁移学习(无需微调),验证了 SentenceMIM 的通用性,其性能优于具有相似架构的 VAE 和 AE。