11 天前

参数化UMAP嵌入用于表示学习与半监督学习

Tim Sainburg, Leland McInnes, Timothy Q Gentner
参数化UMAP嵌入用于表示学习与半监督学习
摘要

UMAP 是一种基于图结构的非参数降维算法,结合了黎曼几何与代数拓扑的思想,用于寻找结构化数据的低维嵌入表示。UMAP 算法包含两个步骤:(1)构建数据集的图表示形式(模糊单纯复形,fuzzy simplicial complex);(2)通过随机梯度下降优化该图的低维嵌入。本文将 UMAP 的第二步扩展为在神经网络权重上的参数化优化,从而学习数据与嵌入空间之间的参数化映射关系。我们首先证明,参数化 UMAP(Parametric UMAP)在性能上可与传统非参数 UMAP 相媲美,同时具备参数化映射带来的显著优势,例如能够对新数据实现快速在线嵌入。随后,我们进一步探索将 UMAP 作为一种正则化手段,通过约束自编码器的潜在空间分布,实现对全局结构保持程度的参数化调节,并在半监督学习中通过捕捉未标记数据中的结构信息,有效提升分类器的准确率。Google Colab 交互式演示:https://colab.research.google.com/drive/1WkXVZ5pnMrm17m0YgmtoNjM_XHdnE5Vp?usp=sharing