2달 전

노이즈-응답 학습을 이용한 텍스트-이미지 개인 재식별

Qin, Yang ; Chen, Yingke ; Peng, Dezhong ; Peng, Xi ; Zhou, Joey Tianyi ; Hu, Peng
노이즈-응답 학습을 이용한 텍스트-이미지 개인 재식별
초록

텍스트-이미지 사람 재식별(TIReID)은 텍스트 쿼리를 기반으로 목표 인물을 검색하는 것을 목표로 하는 다중 모달 커뮤니티에서 주목받는 주제입니다. 많은 TIReID 방법들이 제안되어 유망한 성능을 달성하였지만, 이들은 훈련용 이미지-텍스트 쌍들이 올바르게 정렬되어 있다는 점을 암시적으로 가정합니다. 그러나 실제 상황에서는 항상 그런 경우가 아닙니다. 실제로, 이미지의 낮은 품질과 주석 오류로 인해 이미지-텍스트 쌍들이 필연적으로 부족하게 연관되거나 심지어 잘못 연관되는, 즉 노이즈 대응(NC) 상태가 존재합니다.이 문제를 해결하기 위해, 우리는 NC 조건에서도 견고한 시각-언어 연관성을 학습할 수 있는 새로운 견고한 듀얼 임베딩 방법(RDE)을 제안합니다. 구체적으로, RDE는 두 가지 주요 구성 요소로 이루어져 있습니다: 1) 듀얼 임베딩 모듈의 듀얼 그레인 결정을 활용하여 깨끗한 훈련 데이터의 합의 집합을 얻는 확신 합의 분할(CCD) 모듈. 이 모듈은 모델이 올바르고 신뢰할 수 있는 시각-언어 연관성을 학습할 수 있도록 합니다. 2) 모든 부정 샘플에 대한 로그-지수 상한으로 가장 어려운 부정 샘플에 대한 전통적인 트리플렛 순위 손실을 완화시키는 트리플렛 정렬 손실(TAL). 이 손실 함수는 NC 조건에서 모델 붕괴를 방지하고, 유망한 성능을 위해 가장 어려운 부정 샘플에 초점을 맞출 수 있게 합니다.우리는 CUHK-PEDES, ICFG-PEDES, RSTPReID라는 세 개의 공개 벤치마크에서 광범위한 실험을 수행하여 제안된 RDE의 성능과 견고성을 평가하였습니다. 우리의 방법은 세 데이터셋 모두에서 합성 노이즈 대응 여부와 관계없이 최상의 결과를 달성하였습니다. 코드는 https://github.com/QinYang79/RDE에서 확인할 수 있습니다.

노이즈-응답 학습을 이용한 텍스트-이미지 개인 재식별 | 최신 연구 논문 | HyperAI초신경