
초록
텍스트 기반 사람 검색(TBPS)은 설명적인 텍스트 쿼리를 사용하여 이미지 갤러리에서 목표 인물을 검색하는 것을 목표로 합니다. 이러한 세부적인 크로스모달 검색 과제를 해결하는 것은 어려운데, 이는 대규모 데이터셋의 부족으로 더욱 어려워집니다. 본 논문에서는 제한된 데이터로 인해 발생하는 문제를 처리하기 위한 두 가지 혁신적인 구성 요소를 포함한 프레임워크를 제시합니다. 첫째, 더 구별력 있는 특징 학습을 위해 기존의 소규모 벤치마킹 데이터셋을 충분히 활용하기 위해, 주어진 미니 배치에 대한 훈련 데이터를 풍부하게 만드는 크로스모달 모멘텀 대조 학습 프레임워크를 소개합니다. 둘째, 이미지-텍스트 쌍이 극도로 다른 문제 영역에서 유래한 기존의 대규모 소규모 데이터셋에서 지식을 전이하여 TBPS 훈련 데이터의 부족을 보완하는 방법을 제안합니다. 큰 도메인 간극에도 불구하고 유용한 정보가 전이될 수 있도록 전이 학습 방법이 설계되었습니다. 이러한 구성 요소들을 갖춘 우리의 방법은 CUHK-PEDES 데이터셋에서 Rank-1 및 mAP 측면에서 이전 연구보다 크게 개선된 새로운 최고 성능을 달성했습니다. 우리의 코드는 https://github.com/BrandonHanx/TextReID 에서 확인할 수 있습니다.