2달 전

TIPCB: 텍스트 기반 사람 검색을 위한 간단하면서도 효과적인 부품 기반 합성곱 베이스라인

Yuhao Chen; Guoqing Zhang; Yujiang Lu; Zhenxing Wang; Yuhui Zheng; Ruili Wang
TIPCB: 텍스트 기반 사람 검색을 위한 간단하면서도 효과적인 부품 기반 합성곱 베이스라인
초록

텍스트 기반 사람 검색은 이미지 검색 분야의 하위 작업으로, 주어진 텍스트 설명에 따라 대상 사람의 이미지를 검색하는 것을 목표로 합니다. 두 모달 간의 중요한 특성 차이가 이 작업을 매우 어렵게 만듭니다. 기존의 많은 방법들은 세부 수준에서 이 문제를 해결하기 위해 국소 정렬을 활용하려고 시도했습니다. 그러나 대부분의 관련 방법들은 추가적인 모델이나 복잡한 학습 및 평가 전략을 도입하여 실제 상황에서 사용하기 어려웠습니다. 이를 실용적으로 적용하기 위해, 우리는 TIPCB(즉, 텍스트-이미지 부분 기반 컨볼루션 베이스라인)라는 이름의 단순하지만 효과적인 엔드투엔드 학습 프레임워크를 제안합니다. 첫째, 새로운 듀얼 패스 국소 정렬 네트워크 구조를 제안하여 시각적 및 텍스트 국소 표현을 추출합니다. 여기서 이미지는 수평으로 분할되고 텍스트는 적응적으로 정렬됩니다. 둘째, 세 가지 특성 수준(낮은 수준, 국소 수준, 전역 수준)에서 모달 간 차이를 제거하는 다단계 크로스모달 매칭 전략을 제안합니다. 광범위한 실험은 널리 사용되는 벤치마크 데이터셋(CUHK-PEDES)에서 수행되었으며, 우리의 방법이 최신 방법들보다 Top-1, Top-5, Top-10 측면에서 각각 3.69%, 2.95%, 2.31% 더 우수한 성능을 보임을 확인하였습니다. 우리의 코드는 https://github.com/OrangeYHChen/TIPCB 에 공개되었습니다.

TIPCB: 텍스트 기반 사람 검색을 위한 간단하면서도 효과적인 부품 기반 합성곱 베이스라인 | 최신 연구 논문 | HyperAI초신경