2달 전

다중 모달 적응형 이중 연관을 이용한 텍스트-이미지 사람 검색

Lin, Dixuan ; Peng, Yixing ; Meng, Jingke ; Zheng, Wei-Shi
다중 모달 적응형 이중 연관을 이용한 텍스트-이미지 사람 검색
초록

텍스트-이미지 사람 재식별(ReID)은 주어진 텍스트 설명을 기반으로 특정 사람의 이미지를 검색하는 것을 목표로 합니다. 이 분야의 핵심 과제는 시각적 정보와 텍스트 정보 간의 상세한 관계를 학습하는 것입니다. 기존 연구들은 모달리티 간 차이를 줄이기 위해 잠재 공간을 학습하고, 두 모달리티 간의 지역 대응 관계를 구축하는 데 초점을 맞추고 있습니다. 그러나 이러한 방법들은 이미지-텍스트와 텍스트-이미지 연관성이 모달리티에 무관하다는 가정을 하고 있어, 최적의 연관성을 얻지 못합니다.본 연구에서는 이미지-텍스트 연관성과 텍스트-이미지 연관성 사이의 차이를 보여주고, 이를 해결하기 위해 CADA: 크로스모달 적응형 쌍방향 연관(Cross-Modal Adaptive Dual Association) 방법을 제안합니다. CADA는 시각적 모달리티와 텍스트 모달리티 간의 완전한 상호작용을 가능하게 하며, 쌍방향 및 적응형 크로스모달 대응 관계를 구축할 수 있는 디코더 기반 적응형 쌍방향 연관 모듈을 특징으로 합니다.특히, 본 논문에서는 쌍방향 연관 메커니즘인 텍스트 토큰과 이미지 패치 간의 연관(Association of Text Tokens to Image Patches, ATP)과 이미지 영역과 텍스트 속성 간의 연관(Association of Image Regions to Text Attributes, ARA)을 제안합니다. ATP 모델링은 잘못된 연관성을 기반으로 크로스모달 특성을 집계하면 특성왜곡이 발생한다는 사실에 근거하여 적응적으로 수행됩니다. ARA 모델링에 대해서는 속성이 일반적으로 사람을 구분하는 첫 번째 단서라는 점에서, 관련 이미지 영역을 사용하여 마스크된 텍스트 구문을 예측함으로써 속성 수준의 연관성을 탐구하려고 제안되었습니다.마지막으로, 우리는 텍스트와 이미지 간의 쌍방향 연관성을 학습하며, 실험 결과가 우리의 쌍방향 접근법의 우수성을 입증하였습니다. 코드는 공개될 예정입니다.