2달 전
온라인 클러스터링을 위한 쌍대 대조 학습
Li, Yunfan ; Yang, Mouxing ; Peng, Dezhong ; Li, Taihao ; Huang, Jiantao ; Peng, Xi

초록
본 논문은 인스턴스 수준과 클러스터 수준에서 쌍대 대조 학습(Twin Contrastive Learning, TCL)을 수행하여 온라인 클러스터링을 제안합니다. 구체적으로, 데이터가 목표 클러스터 수와 동일한 차원의 특성 공간으로 투영될 때, 그 특성 행렬의 행과 열은 각각 인스턴스 표현과 클러스터 표현에 해당함을 발견하였습니다. 이러한 관찰에 기반하여, 주어진 데이터셋에 대해 제안된 TCL은 먼저 데이터 증강을 통해 양의 쌍과 음의 쌍을 구성합니다. 그 다음, 특성 행렬의 행 공간과 열 공간에서 각각 인스턴스 수준과 클러스터 수준의 대조 학습이 수행되며, 이는 양의 쌍들을 서로 가까워지게 하면서 음의 쌍들을 멀리 떨어뜨리는 방식으로 이루어집니다. 내재적인 오차 음의 쌍들의 영향을 완화하고 클러스터 할당을 정정하기 위해, 우리는 신뢰도 기반 기준을 사용하여 의사 라벨(pseudo-labels)을 선택하여 인스턴스 수준과 클러스터 수준의 대조 학습을 강화합니다. 결과적으로, 클러스터링 성능이 더욱 향상되었습니다. 쌍대 대조 학습의 우아한 아이디어 외에도, TCL의 또 다른 장점은 각 인스턴스에 대한 클러스터 할당을 독립적으로 예측할 수 있으므로 온라인 시나리오에 쉽게 적용할 수 있다는 점입니다. 6개의 널리 사용되는 이미지 및 텍스트 벤치마크를 대상으로 한 광범위한 실험들은 TCL의 효과성을 입증하였습니다. 코드는 GitHub에서 공개될 예정입니다.