2달 전
전역 및 국소 이미지-언어 연관을 통해 사람 재식별을 위한 심층 시각 표현 개선
Chen, Dapeng ; Li, Hongsheng ; Liu, Xihui ; Shen, Yantao ; Yuan, Zejian ; Wang, Xiaogang

초록
개인 재식별은 다른 개인의 정체성을 구분하기 위해 차별적인 시각적 특징을 학습하는 중요한 작업입니다. 다양한 보조 정보가 시각적 특징 학습을 개선하기 위해 활용되어 왔습니다. 본 논문에서는 효과적인 시각적 특징을 얻기 위해 자연어 설명을 추가적인 훈련 감독으로 활용하는 방법을 제안합니다. 다른 보조 정보와 비교하여 언어는 더 집약적이고 의미론적인 시각적 측면에서 특정 개인을 설명할 수 있으므로, 픽셀 단위 이미지 데이터와 보완적입니다. 본 방법은 전체 설명의 감독을 통해 더 나은 전역 시각적 특징을 학습하고, 지역 시각적 특징과 언어학적 특징 간의 의미 일관성을 강제합니다. 이는 전역 및 지역 이미지-언어 연관성을 구축함으로써 이루어집니다. 전역 이미지-언어 연관성은 정체성 라벨에 따라 설정되며, 지역 연관성은 이미지 영역과 명사구 사이의 암시적인 대응 관계를 기반으로 합니다. 광범위한 실험 결과는 두 가지 연관 방식을 사용하여 언어를 훈련 감독으로 활용하는 것의 효과를 입증합니다. 본 방법은 테스트 중 어떠한 보조 정보도 이용하지 않고 최고 수준의 성능을 달성하며, 이미지-언어 연관성을 위한 다른 공동 임베딩 방법보다 더 우수한 성능을 보여줍니다.