역설적 딥 임베딩 클러스터링: 특성 랜덤성과 특성 드리프트 사이의 더 나은 트레이드오프에 관하여

최근 몇 년 동안 딥 오토인코더를 활용한 클러스터링에 대한 연구가 꾸준히 진행되어 왔다. 현재의 접근 방식은 잠재 공간에서 데이터 포인트를 클러스터링하는 동시에 임베딩 특징을 동시에 학습하는 방식을 취하고 있다. 여러 고의미적 데이터셋에서 다양한 딥 클러스터링 방법이 얕은 모델보다 우수한 성능을 보이고 있음에도 불구하고, 이러한 모델의 근본적인 약점이 간과되어 왔다. 명확한 감독 신호가 없을 경우, 임베딩된 클러스터링 목적 함수는 신뢰할 수 없는 가짜 레이블(피지 레이블)을 기반으로 학습하면서 잠재 공간을 왜곡할 수 있다. 이로 인해 네트워크는 대표성이 없는 특징을 학습하게 되며, 이는 분류 능력을 약화시키고 더 나쁜 피지 레이블을 생성하는 악순환을 초래한다. 무작위 분류 특징의 영향을 완화하기 위해, 현대의 오토인코더 기반 클러스터링 논문들은 재구성 손실을 사전 학습에 사용하고, 클러스터링 단계에서는 정규화 항으로 활용하는 방안을 제안하고 있다. 그러나 클러스터링과 재구성 간의 트레이드오프는 \textit{특징 이동(Feature Drift)} 현상을 유발할 수 있다. 본 논문에서는 적대적 학습을 활용하여 \textit{특징 무작위성(Feature Randomness)}과 \textit{특징 이동(Feature Drift)}이라는 이중 문제를 동시에 해결하는 새로운 오토인코더 기반 클러스터링 모델인 ADEC(Adversarial Deep Embedded Clustering)을 제안한다. 다양한 벤치마크 실데이터를 활용한 실험을 통해 제안 모델이 이 두 문제를 효과적으로 다룰 수 있음을 실증적으로 입증하였으며, 실험 결과 제안 모델이 최신의 오토인코더 기반 클러스터링 방법들보다 우수한 성능을 보임을 확인하였다.