
초록
이 연구는 대규모 사전 훈련된 시각-언어 모델(예: 대조적 언어-이미지 사전 훈련, CLIP)을 다양한 감독 설정 하에서 객체 재식별(Object Re-Identification, Re-ID) 성능을 향상시키기 위해 적응시키는 것을 목표로 한다. 최근 제안된 CLIP-ReID는 프롬프트 학습을 통해 희망적인 성능을 달성하였으나, Re-ID 작업에서 의미적 레이블이 부재함에 따라 프롬프트 학습의 본질적인 역할과 필요성에 대해 명확하지 않은 상태이다. 본 연구에서는 먼저 CLIP-ReID에서 프롬프트 학습의 역할을 분석하고 그 한계를 규명한다. 이러한 분석을 바탕으로, 감독형 객체 Re-ID에 적합한 간단하면서도 효과적인 CLIP 적응 방법을 제안한다. 제안하는 방법은 프롬프트 학습을 필요로 하지 않고, 프로토타입 대조 학습(Prototypical Contrastive Learning, PCL) 손실을 이용하여 CLIP의 이미지 인코더를 직접 미세 조정한다. 사람 및 차량 Re-ID 데이터셋에 대한 실험 결과는 제안한 방법이 CLIP-ReID와 경쟁 가능한 성능을 보임을 입증한다. 더불어, 제안한 PCL 기반 CLIP 미세 조정 방식을 비감독 설정으로 확장하였으며, 이 경우 최신 기술 수준(SOTA)의 성능을 달성하였다.