2달 전
CLIP을 이용한 텍스트 기반 사람 검색의 실증적 연구
Cao, Min ; Bai, Yang ; Zeng, Ziyin ; Ye, Mang ; Zhang, Min

초록
텍스트 기반 사람 검색(TBPS)은 자연어 설명을 사용하여 사람 이미지를 검색하는 것을 목표로 합니다. 최근에, 대규모 다중 모달 시각-언어 사전 학습 모델인 콘트라스티브 랭귀지 이미지 프리트레이닝(CLIP)이 강력한 다중 모달 의미 학습 능력으로 인해 다양한 다중 모달 하류 작업에서 뛰어난 성능을 보여주었습니다. TBPS는 세부적인 다중 모달 검색 작업으로서, CLIP 기반 TBPS 연구의 증가를 맞이하고 있습니다. 이 논문에서는 CLIP의 하류 TBPS 작업에 대한 시각-언어 사전 학습 모델의 잠재력을 탐구하기 위해, CLIP를 위한 포괄적인 경험적 연구를 처음으로 수행합니다. 이를 통해 TBPS 커뮤니티에 간단하면서도 점진적이며 강력한 TBPS-CLIP 베이스라인을 제공합니다. 우리는 데이터 증강과 손실 함수 등 CLIP 아래에서 중요한 설계 고려사항들을 재검토합니다. 위와 같은 설계와 실제 훈련 트릭을 적용한 모델은 복잡한 모듈 없이도 만족할 만한 성능을 달성할 수 있습니다. 또한, 우리는 모델 일반화와 모델 압축에 대한 TBPS-CLIP 탐침 실험을 수행하여 여러 측면에서 TBPS-CLIP의 효과성을 입증하였습니다. 이 연구는 경험적 통찰력을 제공하고 앞으로의 CLIP 기반 TBPS 연구를 강조할 것으로 기대됩니다.