2달 전
TIPCB: 텍스트 기반 사람 검색을 위한 간단하면서도 효과적인 부품 기반 합성곱 베이스라인
Yuhao Chen; Guoqing Zhang; Yujiang Lu; Zhenxing Wang; Yuhui Zheng; Ruili Wang

초록
텍스트 기반 사람 검색은 이미지 검색 분야의 하위 작업으로, 주어진 텍스트 설명에 따라 대상 사람의 이미지를 검색하는 것을 목표로 합니다. 두 모달 간의 중요한 특성 차이가 이 작업을 매우 어렵게 만듭니다. 기존의 많은 방법들은 세부 수준에서 이 문제를 해결하기 위해 국소 정렬을 활용하려고 시도했습니다. 그러나 대부분의 관련 방법들은 추가적인 모델이나 복잡한 학습 및 평가 전략을 도입하여 실제 상황에서 사용하기 어려웠습니다. 이를 실용적으로 적용하기 위해, 우리는 TIPCB(즉, 텍스트-이미지 부분 기반 컨볼루션 베이스라인)라는 이름의 단순하지만 효과적인 엔드투엔드 학습 프레임워크를 제안합니다. 첫째, 새로운 듀얼 패스 국소 정렬 네트워크 구조를 제안하여 시각적 및 텍스트 국소 표현을 추출합니다. 여기서 이미지는 수평으로 분할되고 텍스트는 적응적으로 정렬됩니다. 둘째, 세 가지 특성 수준(낮은 수준, 국소 수준, 전역 수준)에서 모달 간 차이를 제거하는 다단계 크로스모달 매칭 전략을 제안합니다. 광범위한 실험은 널리 사용되는 벤치마크 데이터셋(CUHK-PEDES)에서 수행되었으며, 우리의 방법이 최신 방법들보다 Top-1, Top-5, Top-10 측면에서 각각 3.69%, 2.95%, 2.31% 더 우수한 성능을 보임을 확인하였습니다. 우리의 코드는 https://github.com/OrangeYHChen/TIPCB 에 공개되었습니다.