2달 전

MARS: 텍스트 기반 사람 검색에서 시각적 속성에 더 많은 주의를 기울이기

Alex Ergasti; Tomaso Fontanini; Claudio Ferrari; Massimo Bertozzi; Andrea Prati
MARS: 텍스트 기반 사람 검색에서 시각적 속성에 더 많은 주의를 기울이기
초록

텍스트 기반 개인 검색(TBPS)은 연구 커뮤니티에서 큰 관심을 받고 있는 문제입니다. 이 작업의 목적은 특정 개인에 대한 텍스트 설명을 바탕으로 한 개 이상의 이미지를 검색하는 것입니다. 이 작업의 다중 모달 특성은 공유 잠재 공간 내에서 텍스트와 이미지 데이터를 연결하는 표현을 학습해야 함을 의미합니다. 기존 TBPS 시스템들은 두 가지 주요 과제에 직면해 있습니다. 하나는 텍스트 설명의 본질적인 모호성과 부정확성으로 인한 동일인 간 노이즈(inter-identity noise)로, 시각적 속성의 설명이 일반적으로 다른 사람들에게도 연관될 수 있음을 나타냅니다. 다른 하나는 동일인 내 변동(intra-identity variations)으로, 포즈, 조명 등과 같은 요소들이 특정 주체의 동일한 텍스트 속성이 시각적으로 어떻게 변할 수 있는지를 나타냅니다. 이러한 문제들을 해결하기 위해, 본 논문에서는 MARS(Mae-Attribute-Relation-Sensitive)라는 새로운 TBPS 아키텍처를 제시합니다. MARS는 두 가지 핵심 구성 요소를 도입하여 현재 최신 모델들을 강화합니다: 시각 재구성 손실(Visual Reconstruction Loss)과 속성 손실(Attribute Loss)입니다. 전자는 랜덤하게 마스킹된 이미지 패치를 텍스트 설명의 도움으로 재구성하도록 훈련된 마스킹 오토인코더(Masked AutoEncoder)를 사용합니다. 이를 통해 모델은 더 표현력 있는 표현과 잠재 공간 내의 텍스트-시각 관계를 학습하도록 유도됩니다. 후자는 형용사-명사 조합(adjective-noun chunks)으로 정의된 다양한 유형의 속성을 균형 있게 고려하는 역할을 합니다. 이 손실 함수는 개인 검색 과정에서 모든 속성이 고려되도록 보장합니다. CUHK-PEDES, ICFG-PEDES, RSTPReid 등 세 가지 일반적으로 사용되는 데이터셋에 대한 광범위한 실험 결과, 성능 개선이 보고되었으며, 평균 정밀도(mAP, mean Average Precision) 지표에서 현행 최신 기술 대비 상당한 개선이 이루어졌습니다.