7 个月前

摘要

高维时间序列在许多领域中十分常见。由于人类认知并未优化以在高维空间中高效工作，这些领域可以从可解释的低维表示中受益。然而，大多数用于时间序列数据的表征学习算法难以解释。这主要是因为从数据特征到表征显著属性之间的映射不够直观，以及随时间变化的非平滑性。为了解决这一问题，我们提出了一种新的表征学习框架，该框架结合了可解释离散降维和深度生成建模的思想。此框架使我们能够学习时间序列的离散表示，从而产生平滑且可解释的嵌入，具有优越的聚类性能。我们引入了一种克服离散表征学习中不可微分性的新方法，并提出了一种基于梯度的传统自组织映射算法（Self-Organizing Map, SOM）的新版本，其性能优于原始版本。此外，为了使我们的方法具有概率解释性，我们在表征空间中集成了一个马尔可夫模型（Markov Model）。该模型揭示了时间转换结构，进一步提高了聚类性能，并提供了额外的解释性见解以及对不确定性的自然表示。我们在静态（Fashion-）MNIST数据、线性插值（Fashion-）MNIST图像的时间序列、具有两个宏观状态的混沌洛伦兹吸引子系统以及eICU数据集上的复杂现实医疗时间序列应用中评估了我们的模型在聚类性能和可解释性方面的表现。实验结果表明，我们学到的表征与竞争方法相比具有优势，并有助于现实世界数据中的下游任务。

源 PDF