
많은 실제 문제에서 우리는 이미지, 비디오, 텍스트 및 웹 문서, DNA 마이크로어레이 데이터 등과 같은 고차원 데이터의 집합을 다룹니다. 종종 이러한 고차원 데이터는 데이터가 속하는 여러 클래스나 범주에 해당하는 저차원 구조 근처에 위치해 있습니다. 본 논문에서는 저차원 부분공간들의 합집합에 위치한 데이터 포인트를 클러스터링하기 위한 알고리즘인 희소 부분공간 클러스터링(Sparse Subspace Clustering, SSC)을 제안하고 연구합니다. 핵심 아이디어는 무수히 많은 다른 포인트들로 표현할 수 있는 방법 중에서 희소 표현은 같은 부분공간에서 몇 개의 포인트만 선택한다는 것입니다. 이는 스펙트럼 클러스터링 프레임워크에서 사용되는 최적화 프로그램을 해결하여 데이터가 부분공간으로 클러스터링되는 것을 추론하는 데 동기를 부여합니다. 일반적으로 희소 최적화 프로그램을 해결하는 것은 NP-난제이므로, 우리는 볼록 완화(convex relaxation)를 고려하고, 부분공간의 배열과 데이터 분포에 대한 적절한 조건 하에서 제안된 최소화 프로그램이 원하는 희소 표현을 회복하는데 성공함을 보입니다. 제안된 알고리즘은 효율적으로 해결될 수 있으며, 부분공간들의 교점 근처에 위치한 데이터 포인트도 처리할 수 있습니다. 또한 기존 기술 대비 제안된 알고리즘의 주요 장점은 노이즈, 희박한 이상치(sparse outlying entries), 누락된 항목(missing entries) 등의 데이터 방해 요소(nuisances)를 직접적으로 모델에 통합하여 희소 최적화 프로그램에서 처리할 수 있다는 점입니다. 우리는 합성 데이터와 운동 세그멘테이션 및 얼굴 클러스터링이라는 두 가지 실제 문제를 통해 제안된 알고리즘의 효과성을 실험으로 입증하였습니다.