16일 전

다중 모달 딥 클러스터링: 이미지의 비지도 분할

Guy Shiran, Daphna Weinshall
다중 모달 딥 클러스터링: 이미지의 비지도 분할
초록

라벨이 없는 원시 이미지의 군집화는 최근 깊은 학습 방법을 통해 어느 정도 성공적으로 접근되고 있지만, 여전히 도전적인 과제이다. 본 연구에서는 이미지에 대한 직접적인 군집 할당을 추가 처리 없이 제공할 수 있도록 엔드투엔드 방식으로 깊은 신경망을 학습하는 비지도 군집 프레임워크를 제안한다. 다중모달 깊은 군집화(Multi-Modal Deep Clustering, MMDC)는 이미지 임베딩을 가우시안 혼합 모델(Gaussian Mixture Model) 분포로부터 샘플링된 타겟 포인트와 일치하도록 깊은 네트워크를 훈련시킨다. 이후 이미지 임베딩의 혼합 성분에 대한 대응 관계를 기반으로 군집 할당을 결정한다. 동시에 동일한 깊은 네트워크는 이미지 회전 예측이라는 추가적인 자기지도 학습 태스크를 해결하도록 훈련된다. 이는 네트워크가 더 의미 있는 이미지 표현을 학습하도록 유도하여 보다 우수한 군집화 성능을 가능하게 한다. 실험 결과, MMDC는 여섯 가지 도전적인 벤치마크에서 최첨단 성능을 달성하거나 이를 초과함을 보였다. 자연 이미지 데이터셋에서 기존 결과보다 최대 20%의 절대 정확도 향상을 기록하였으며, CIFAR-10에서는 82%, CIFAR-100에서는 45%, STL-10에서는 69%의 정확도를 달성하였다.

다중 모달 딥 클러스터링: 이미지의 비지도 분할 | 최신 연구 논문 | HyperAI초신경