
CLIP과 같은 사전 학습된 시각-언어 모델은 최근 이미지 분류 및 세그멘테이션을 포함한 다양한 다운스트림 작업에서 우수한 성능을 보여주었습니다. 그러나 미세한 이미지 재식별(ReID) 작업에서는 라벨이 인덱스로 이루어져 있어 구체적인 텍스트 설명이 부족합니다. 따라서 이러한 모델들이 이러한 작업에 어떻게 적용될 수 있는지는 아직 결정되지 않았습니다. 본 논문은 먼저 CLIP의 이미지 인코더로 초기화된 시각 모델을 단순히 파인튜닝하는 것만으로도 다양한 ReID 작업에서 경쟁력 있는 성능을 얻을 수 있다는 것을 발견하였습니다. 그런 다음, 더 나은 시각 표현을 촉진하기 위한 두 단계 전략을 제안합니다. 이 방법의 핵심 아이디어는 각 ID에 대해 학습 가능한 텍스트 토큰 세트를 사용하여 CLIP의 크로스모달 설명 능력을 충분히 활용하고, 이를 텍스트 인코더에 제공하여 모호한 설명을 형성하는 것입니다. 첫 번째 학습 단계에서는 CLIP의 이미지 인코더와 텍스트 인코더가 고정되어 있고, 배치 내에서 계산된 대조 손실(contrastive loss)에 의해 텍스트 토큰만이 처음부터 최적화됩니다. 두 번째 단계에서는 ID별 텍스트 토큰과 그 인코더가 정적 상태를 유지하여, 이미지 인코더의 파인튜닝에 대한 제약 조건을 제공합니다. 다운스트림 작업에서 설계된 손실 함수의 도움으로, 이미지 인코더는 특징 임베딩(feature embedding)에서 데이터를 벡터로 정확하게 표현할 수 있습니다. 제안된 전략의 효과성은 사람이나 차량 ReID 작업을 위한 여러 데이터셋에서 검증되었습니다. 코드는 https://github.com/Syliz517/CLIP-ReID 에서 확인할 수 있습니다.