2달 전
Oracle 기반 확장 가능한 Elastic Net 부분 공간 클러스터링 알고리즘
Chong You; Chun-Guang Li; Daniel P. Robinson; Rene Vidal

초록
최신의 부분 공간 클러스터링 방법은 각 데이터 포인트를 다른 데이터 포인트들의 선형 조합으로 표현하면서, 계수 행렬을 $\ell_1$, $\ell_2$ 또는 핵 노름으로 규제화하는 것을 기반으로 합니다. $\ell_1$ 규제는 광범위한 이론적 조건 하에서 부분 공간 보존 친밀도(즉, 서로 다른 부분 공간의 점들 간에 연결이 없는 상태)를 보장하지만, 클러스터가 연결되지 않을 수 있습니다. $\ell_2$ 및 핵 노름 규제는 종종 연결성을 개선하지만, 독립적인 부분 공간에 대해서만 부분 공간 보존 친밀도를 제공합니다. 혼합된 $\ell_1$, $\ell_2$ 및 핵 노름 규제는 부분 공간 보존과 연결성 사이의 균형을 제공하지만, 이는 계산 복잡도 증가를 의미합니다.본 논문에서는 엘라스틱넷 규제화(즉, $\ell_1$ 및 $\ell_2$ 노름의 혼합)의 기하학적 특성을 연구하고, 이를 이용하여 최적의 계수를 찾기 위한 검증 가능하고 확장 가능한 활성 집합 방법을 도출합니다. 우리의 기하학적 분석은 또한 엘라스틱넷 부분 공간 클러스터링에서 연결성($\ell_2$ 규제로 인해)과 부분 공간 보존($\ell_1$ 규제로 인해) 성질 사이의 균형에 대한 이론적 근거와 기하학적 해석을 제공합니다. 실험 결과, 제안된 활성 집합 방법은 최고 수준의 클러스터링 성능을 달성할 뿐 아니라 대규모 데이터셋을 효율적으로 처리할 수 있음을 확인하였습니다.