11 天前

用于高效降维的分层最近邻图嵌入

M. Saquib Sarfraz, Marios Koulakis, Constantin Seibold, Rainer Stiefelhagen
用于高效降维的分层最近邻图嵌入
摘要

降维在数据可视化以及机器学习中的高维数据预处理中均具有关键作用。本文提出一种新方法,该方法基于原始空间中构建的1-最近邻图(1-nearest neighbor graphs)所形成的层次结构,旨在多层级上保持数据分布的聚类特性。该方法的核心是一种无需优化的投影机制,在性能和可视化质量方面与最新的t-SNE和UMAP方法相当,同时运行速度高出一个数量级。此外,该方法具备可解释性强、支持新数据投影以及在可视化中自然分离数据簇等优势,使其成为一种通用的无监督降维技术。在论文中,我们论证了该方法的合理性,并在其在包含1K至1100万样本、维度范围为28至16,000的多样化数据集上进行了全面评估。我们在多种指标和目标维度下与现有最先进方法进行了对比,充分展现了其高效性与卓越性能。相关代码已开源,地址为:https://github.com/koulakis/h-nne。

用于高效降维的分层最近邻图嵌入 | 最新论文 | HyperAI超神经