
초록
텍스트 기반 사람 검색은 특정 보행자의 이미지를 텍스트 설명을 통해 검색하는 것을 목표로 합니다. 이 작업의 주요 과제는 모달 간 차이를 제거하고, 모달 간의 특성 일치를 달성하는 것입니다. 본 논문에서는 텍스트 기반 사람 검색을 위한 의미 일치 임베딩 방법을 제안합니다. 이 방법은 자동으로 의미 일치 시각적 특성과 텍스트 특성을 학습하여 모달 간의 특성 일치를 달성합니다. 첫째, 우리는 두 개의 트랜스포머 기반 백본을 도입하여 이미지와 텍스트의 강건한 특성 표현을 인코딩합니다. 둘째, 우리는 의미 일치 특성 집계 네트워크를 설계하여 동일한 의미를 가진 특성을 적응적으로 선택하고 집계하여 부분 인식 특성을 생성합니다. 이를 위해 다중 헤드 어텐션 모듈이 크로스-모달 부분 일치 손실과 다양성 손실에 의해 제약됩니다. CUHK-PEDES 및 Flickr30K 데이터셋에서 수행된 실험 결과는 우리의 방법이 최신 성능을 달성함을 보여줍니다.(Inter-modality gap: 모달 간 차이, Feature alignment: 특성 일치, Semantic-aligned embedding: 의미 일치 임베딩, Multi-head attention module: 다중 헤드 어텐션 모듈, Cross-modality part alignment loss: 크로스-모달 부분 일치 손실, Diversity loss: 다양성 손실)