
텍스트-이미지 사람 검색은 주어진 텍스트 설명 쿼리를 기반으로 목표 인물을 식별하는 것을 목표로 합니다. 주요 과제는 시각적 모달리티와 텍스트 모달리티를 공통 잠재 공간으로 매핑하는 것입니다. 이전 연구들은 단일 모달 모델을 별도로 사전 학습하여 시각적 특징과 텍스트 특징을 추출하려고 시도했습니다. 그러나 이러한 접근 방식은 다중 모달 데이터를 효과적으로 일치시키기 위해 필요한 기본적인 정렬 능력이 부족합니다. 또한, 이러한 연구들은 사전 정보를 활용하여 명시적인 부분 정렬을 탐색하지만, 이는 모달 내부 정보의 왜곡을 초래할 수 있습니다. 이러한 문제들을 완화하기 위해, 우리는 IRRA: 크로스-모달 암묵적 관계 추론 및 정렬 프레임워크를 제안합니다. 이 프레임워크는 로컬 시각-텍스트 토큰 간의 관계를 학습하고, 추가적인 사전 감독 없이 전역 이미지-텍스트 매칭을 강화합니다.구체적으로, 먼저 마스크 언어 모델링 패러다임에서 암묵적 관계 추론 모듈을 설계하였습니다. 이 모듈은 크로스-모달 멀티모달 상호작용 인코더를 사용하여 시각적 힌트를 텍스트 토큰에 통합함으로써 크로스-모달 상호작용을 달성합니다. 둘째로, 전역적으로 시각적 임베딩과 텍스트 임베딩을 정렬하기 위해 유사성 분포 매칭(Similarity Distribution Matching) 방법을 제안하였습니다. 이 방법은 이미지-텍스트 유사성 분포와 정규화된 라벨 매칭 분포 사이의 KL 발산(KL divergence)을 최소화합니다.제안된 방법은 세 가지 공개 데이터셋에서 모두 새로운 최신 성능(SOTA) 결과를 달성하였으며, 이전 방법들과 비교해 1위(Rank-1) 정확도에서 약 3%-9%의 눈에 띄는 차이를 보였습니다.