RaSa: 텍스트 기반 개인 검색을 위한 관계와 감도 인식 표현 학습

텍스트 기반 사람 검색은 주어진 텍스트 설명에 따라 특정 사람의 이미지를 검색하는 것을 목표로 합니다. 이러한 어려운 과제를 해결하기 위한 핵심은 강력한 다중 모달 표현을 학습하는 것입니다. 이를 위해 우리는 관계 인식 표현 학습 방법(Relation and Sensitivity aware representation learning method, RaSa)을 제안하며, 이는 두 가지 새로운 과제인 관계 인식 학습(Relation-Aware learning, RA)과 감도 인식 학습(Sensitivity-Aware learning, SA)을 포함합니다.첫째, 기존 방법들은 모든 양성 쌍의 표현을 구분 없이 클러스터링하고, 텍스트와 짝을 이루는 이미지 간에 노이즈가 있는 약한 양성 쌍으로 인해 발생하는 노이즈 문제를 간과하여 과적합 학습을 초래합니다. RA는 새로운 양성 관계 검출 과제(즉, 강한 양성 쌍과 약한 양성 쌍을 구분하는 것)를 도입하여 과적합 위험을 완화합니다.둘째, 데이터 증강 하에서 불변 표현을 학습하는 것(즉, 일부 변환에 대해 민감하지 않도록 하는 것)은 기존 방법들에서 표현의 견고성을 개선하기 위한 일반적인 접근 방식입니다. 이를 넘어서, 우리는 SA를 통해 표현이 민감한 변환을 인식하도록 장려합니다(즉, 바뀐 단어를 감지하도록 학습하는 것), 이로써 표현의 견고성이 더욱 향상됩니다.실험 결과, RaSa는 CUHK-PEDES, ICFG-PEDES 및 RSTPReid 데이터셋에서 각각 Rank@1 지표로 6.94%, 4.45%, 15.35% 개선되어 기존 최신 방법들을 능가함을 입증하였습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/Flame-Chasers/RaSa.