텍스트 기반 인물 검색을 위한 계층적 고무엘 주의력 네트워크
텍스트 기반 사람 검색(Text-based person search)은 주어진 텍스트 설명과 가장 잘 일치하는 보행자 이미지를 갤러리 이미지에서 검색하는 것을 목표로 한다. 기존의 방법들은 이미지의 영역과 문장 내 해당 단어 간의 의미적 정렬을 추론하기 위해 소프트 어텐션(Soft-attention) 메커니즘을 활용해 왔다. 그러나 이러한 방법들은 관련 없는 다중 모달리티 특징을 함께 융합함으로써 매칭의 중복 문제를 유발할 수 있다. 본 연구에서는 Gumbel top-k 재매개변수화 알고리즘을 활용하여 텍스트 기반 사람 검색을 위한 새로운 계층적 Gumbel 어텐션 네트워크를 제안한다. 구체적으로, 이미지와 텍스트에서 의미적으로 강하게 관련된 영역과 단어/구를 적응적으로 선택하여 정밀한 정렬 및 유사도 계산을 수행한다. 이 하드 선택 전략은 강하게 관련된 다중 모달리티 특징을 융합함으로써 매칭 중복 문제를 완화할 수 있다. 동시에, 하드 어텐션 메커니즘의 이산성 문제를 엔드투엔드 방식으로 해결하기 위해 저변동성, 편향 없는 기울기 추정기로서 Gumbel top-k 재매개변수화 알고리즘을 설계하였다. 더불어, 모델은 단어 수준, 구문 수준, 문장 수준의 세 가지 서로 다른 세부 granularities에서 계층적 적응형 매칭 전략을 도입하여 미세한 수준의 매칭을 달성한다. 광범위한 실험 결과는 본 방법이 최첨단 성능을 달성함을 입증한다. CUHK-PEDES 데이터셋에서 기존 최고 성능 방법과 비교하여, 텍스트-이미지 검색 과제에서 Rank-1 성능이 8.24%, mAP가 7.6% 향상되었으며, 이미지-텍스트 검색 과제에서는 Rank-1 성능이 5.58%, mAP가 6.3% 향상되는 결과를 보였다.