11일 전

이중 확률적 부분공간 클러스터링

Derek Lim, René Vidal, Benjamin D. Haeffele
이중 확률적 부분공간 클러스터링
초록

최근의 대표적인 부분공간 군집화 방법들은 일반적으로 두 단계의 과정을 따르는데, 먼저 데이터 포인트 간의 유사도 행렬(affinity matrix)을 구성한 후, 이를 스펙트럴 군집화(spectral clustering)에 적용하는 방식이다. 이러한 방법들에 대한 대부분의 연구는 유사도 행렬을 생성하는 첫 번째 단계에 집중하며, 선형 부분공간의 자기표현성(self-expressive property)을 활용하는 경우가 많다. 반면, 최종 군집 결과를 도출하는 스펙트럴 군집화 단계에 대한 고려는 상대적으로 부족한 편이다. 더불어 기존 방법들은 자기표현 기반 군집화 설정에서 도출된 유사도 행렬에 임의의 후처리(postprocessing) 절차를 적용하여 최종 스펙트럴 군집화에 사용할 유사도 행렬을 얻는 경우가 많으며, 이러한 후처리 과정은 전체 군집 성능에 상당한 영향을 미칠 수 있다. 본 연구에서는 이러한 두 단계를 통합하여, 데이터의 자기표현 표현과 스펙트럴 군집화에 적합한 잘 정규화된 유사도 행렬을 동시에 학습하는 방법을 제안한다. 제안하는 모델에서는 유사도 행렬이 이중 확률 행렬(doubly stochastic)이 되도록 제약을 두어, 스펙트럴 군집화에 있어 유의미한 정규화 방법을 제공함과 동시에, 이중 확률 정규화의 기존 알려진 이점을 효과적으로 활용한다. 본 연구에서는 일반적인 프레임워크를 개발하고, 두 가지 모델을 도출하였다. 하나는 자기표현 표현과 이중 확률 유사도 행렬을 동시에 학습하는 모델이며, 다른 하나는 하나를 먼저 구하고 그 결과를 바탕으로 다음 단계를 순차적으로 해결하는 모델이다. 또한 문제의 희소성(sparcity)을 활용하여 순차적 해법을 위한 빠른 활성집합(active-set) 방법을 개발하였으며, 이는 대규모 데이터셋에서도 효율적인 계산을 가능하게 한다. 실험 결과, 제안한 방법은 컴퓨터 비전 분야에서 널리 사용되는 다양한 기준 데이터셋에서 최신 기술 수준의 부분공간 군집화 성능을 달성함을 보였다.

이중 확률적 부분공간 클러스터링 | 최신 연구 논문 | HyperAI초신경