2달 전

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval 더 세밀하게, 더 많이 보다: 텍스트 기반 개인 검색을 위한 암시적 모달리티 정렬

Shu, Xiujun ; Wen, Wei ; Wu, Haoqian ; Chen, Keyu ; Song, Yiran ; Qiao, Ruizhi ; Ren, Bo ; Wang, Xiao
See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval
더 세밀하게, 더 많이 보다: 텍스트 기반 개인 검색을 위한 암시적 모달리티 정렬
초록

텍스트 기반 개인 검색은 텍스트 설명을 바탕으로 쿼리 대상의 개인을 찾는 것을 목표로 합니다. 핵심은 시각적-텍스트 모달 간의 공통 잠재 공간 매핑을 학습하는 것입니다. 이 목표를 달성하기 위해 기존 연구에서는 분할(segmentation)을 사용하여 명시적인 크로스모달 정렬(cross-modal alignments)을 얻거나, 주의 메커니즘(attention)을 활용하여 중요한 정렬(salient alignments)을 탐색합니다. 이러한 방법들은 두 가지 단점이 있습니다: 1) 크로스모달 정렬을 라벨링하는 것은 시간이 많이 소요됩니다. 2) 주의 메커니즘 방법은 중요한 크로스모달 정렬을 탐색할 수 있지만, 일부 미묘하고 가치 있는 쌍들을 무시할 수 있습니다.이러한 문제를 완화하기 위해 우리는 텍스트 기반 개인 검색을 위한 암묵적 시각적-텍스트(Implicit Visual-Textual, IVT) 프레임워크를 소개합니다. 기존 모델들과 달리 IVT는 단일 네트워크를 사용하여 두 모달 모두에 대한 표현을 학습하며, 이는 시각적-텍스트 상호작용에 기여합니다. 세부적인 정렬(fine-grained alignment)을 탐색하기 위해, 우리는 두 가지 암묵적 의미 정렬 패러다임(multi-level alignment (MLA)와 bidirectional mask modeling (BMM))을 제안합니다. MLA 모듈은 문장, 구문, 단어 수준에서 더 세밀한 매칭(matching)을 탐색하며, BMM 모듈은 시각적과 텍스트 모달 간의 더 많은 의미 정렬(semantic alignments)을 발굴하는 것을 목표로 합니다.공개 데이터셋인 CUHK-PEDES, RSTPReID, ICFG-PEDES에서 제안된 IVT의 성능 평가를 위한 광범위한 실험이 수행되었습니다. 명시적인 신체 부위 정렬(explicit body part alignment) 없이도 우리의 접근 방식은 여전히 최신 연구(state-of-the-art performance) 수준의 성능을 달성하였습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval 더 세밀하게, 더 많이 보다: 텍스트 기반 개인 검색을 위한 암시적 모달리티 정렬 | 최신 연구 논문 | HyperAI초신경