다중 라벨 클러스터 구분을 위한 시각적 표현 학습

대조적 언어 이미지 사전학습 (CLIP)은 이미지-텍스트 대조 학습에 의해 강화된 우수한 특성 표현 덕분에 최근 다양한 작업에서 성공을 보여주었습니다. 그러나 CLIP에서 사용되는 인스턴스 구별 방법은 훈련 데이터의 의미 구조를 거의 인코딩하지 못합니다. 이러한 제한을 해결하기 위해, 반복적인 클러스터 할당 및 분류를 통해 클러스터 구별이 제안되었습니다. 그럼에도 불구하고 대부분의 클러스터 구별 접근 방식은 각 이미지에 단일 가짜 라벨(pseudo-label)만 정의하여 이미지 내의 다중 라벨 신호를 무시합니다. 본 논문에서는 표현 학습을 개선하기 위한 새로운 다중 라벨 클러스터 구별 방법인 MLCD(Multi-Label Cluster Discrimination)를 제안합니다. 클러스터링 단계에서는 오프더셀프 임베딩 특성을 기반으로 대규모 LAION-400M 데이터셋을 1백만 개의 중심으로 클러스터링합니다. 자연 이미지가 종종 여러 시각 객체나 속성을 포함한다는 점을 고려하여, 가장 가까운 여러 중심을 보조 클래스 라벨로 선택합니다. 구별 단계에서는 긍정 클래스와 부정 클래스의 손실을 우아하게 분리하고 결정 경계의 모호성을 완화하는 새로운 다중 라벨 분류 손실 함수를 설계했습니다. 우리는 서로 다른 규모의 모델과 사전 학습 데이터셋에 대한 실험을 통해 제안된 다중 라벨 클러스터 구별 방법을 검증하였습니다. 실험 결과, 우리의 방법은 선형 프로브, 제로샷 분류, 이미지-텍스트 검색 등 여러 하위 작업에서 최고 수준의 성능을 달성함을 보여주었습니다. 코드와 모델은 https://github.com/deepglint/unicom 에 공개되었습니다.