비대칭 학습 기반 하이브리드 네트워크를 이용한 긴 꼬리 이미지 분류

분류 불균형 상황에서 분류기 학습을 완화할 수 있기 때문에, 구분 가능한 이미지 표현 학습은 긴 꼬리(long-tailed) 이미지 분류에서 핵심적인 역할을 한다. 최근 표현 학습 분야에서 대조 학습(contrastive learning)이 뛰어난 성능을 보여주고 있는 점을 감안할 때, 본 연구에서는 효과적인 감독형 대조 학습 전략을 탐색하고, 이를 불균형 데이터로부터 더 나은 이미지 표현을 학습할 수 있도록 조정함으로써 분류 정확도를 향상시키는 것을 목표로 한다. 구체적으로, 이미지 표현 학습을 위한 감독형 대조 손실(supervised contrastive loss)과 분류기 학습을 위한 크로스엔트로피 손실(cross-entropy loss)로 구성된 새로운 하이브리드 네트워크 구조를 제안한다. 이 구조는 특징 학습에서 분류기 학습으로 점진적으로 전이되는 학습 전략을 통해, 더 나은 특징이 더 나은 분류기를 만든다는 아이디어를 구현한다. 특징 학습을 위한 두 가지 대조 손실 변형을 탐색하였으며, 형태는 다르지만 공통된 개념을 공유한다. 즉, 정규화된 임베딩 공간에서 동일 클래스의 샘플은 서로 가깝게, 서로 다른 클래스의 샘플은 멀리 떨어지게 하는 것이다. 하나는 최근 제안된 감독형 대조(SC, supervised contrastive) 손실로, 최신 비감독형 대조 손실 기반으로 동일 클래스의 양성 샘플을 포함하여 설계되었다. 다른 하나는 표준 SC 손실에서 발생하는 높은 메모리 소비 문제를 해결한 프로토타입 기반 감독형 대조(PSC, prototypical supervised contrastive) 학습 전략으로, 제한된 메모리 예산 하에서도 더 큰 잠재력을 보여준다. 세 가지 긴 꼬리 분류 데이터셋에 대한 광범위한 실험을 통해, 제안된 대조 학습 기반 하이브리드 네트워크가 긴 꼬리 분류에서 우수한 성능을 발휘함을 입증하였다.