
摘要
最先进的子空间聚类方法基于将每个数据点表示为其他数据点的线性组合,同时使用 $\ell_1$、$\ell_2$ 或核范数对系数矩阵进行正则化。在广泛的理论条件下,$\ell_1$ 正则化可以保证生成一个子空间保持的亲和性(即不同子空间之间的点没有连接),但聚类可能不连通。$\ell_2$ 和核范数正则化通常能提高连通性,但仅在独立子空间的情况下才能提供子空间保持的亲和性。混合 $\ell_1$、$\ell_2$ 和核范数正则化可以在子空间保持性和连通性之间取得平衡,但这会增加计算复杂度。本文研究了弹性网正则化($\ell_1$ 和 $\ell_2$ 范数的混合)的几何特性,并利用这些特性推导出一种可证明正确且可扩展的活动集方法来寻找最优系数。我们的几何分析还为弹性网子空间聚类中连通性(由 $\ell_2$ 正则化引起)与子空间保持性(由 $\ell_1$ 正则化引起)之间的平衡提供了理论依据和几何解释。实验结果表明,所提出的活动集方法不仅实现了最先进的聚类性能,还能高效处理大规模数据集。