
초록
CLIP과 ImageBind를 활용한 데이터 임베딩은 멀티미디어 및/또는 멀티모달 데이터 분석을 위한 강력한 특징을 제공한다. 본 연구에서는 기존의 표준 소프트맥스(Softmax) 레이어 대신 가우시안 혼합 모델(Gaussian Mixture Models, GMMs) 기반 레이어를 사용한 분류 성능을 평가한다. 최근 들어, GMM 기반 분류기는 엔드 투 엔드로 학습되는 딥러닝 파이프라인의 일부로 흥미로운 성능을 보여주고 있음이 입증되었다. 본 연구의 첫 번째 기여는 CLIP과 ImageBind의 임베딩 공간을 활용하여 GMM 기반 분류 성능을 탐구한 점이며, 두 번째 기여는 기존에 제안된 것보다 파라미터 수가 더 적은 자체 개발 GMM 기반 분류기를 제안한 점이다. 연구 결과, 테스트한 임베딩 공간에서 대부분의 경우, 각 클래스를 표현하기 위해 GMM 내에서 단일 가우시안 성분만으로도 충분함을 관찰하였다. 이는 이러한 임베딩 공간을 학습할 때 사용되는 대조적 손실(contrastive loss)이 각 클래스 내 특징들을 자연스럽게 집중시키는 경향이 있기 때문일 것이라고 가정할 수 있다. 또한, PCA를 사용해 임베딩 공간을 압축한 상황에서도 ImageBind가 CLIP보다 이미지 데이터셋 분류에서 더 우수한 성능을 보이는 경우가 많다는 점을 확인하였다.