세부 사항에 마법이 있다: 사람 재식별에서 조건부 임베딩을 위한 시각적 단서 정렬

사람 재식별(Person Re-Identification) 기술은 놀라운 발전을 이뤘지만, 가림, 시점 변화, 유사한 복장 등의 어려운 케이스는 여전히 큰 도전 과제를 안고 있다. 전반적인 시각적 특징 외에도, 세부 정보를 매칭하고 비교하는 것이 이러한 문제들을 해결하는 데 필수적이다. 본 논문은 기존 대부분의 방법들이 충족하지 못하는 보행자 이미지의 세부 정보를 보다 효과적으로 활용하기 위해 두 가지 핵심 인식 패턴을 제안한다. 첫째, 시각적 단서 정렬(Visual Clue Alignment)은 모델이 두 이미지에서 결정적인 영역 쌍을 선택하고 정렬하여 쌍별 비교를 수행하도록 요구한다. 반면 기존 방법들은 고정된 규칙(예: 높은 특징 유사도 또는 동일한 의미 레이블)에 따라 영역을 정렬하는 데 그치고 있다. 둘째, 조건부 특징 임베딩(Conditional Feature Embedding)은 쿼리 이미지의 전반적 특징이 매칭되는 갤러리 이미지에 따라 동적으로 조정되도록 한다. 그러나 대부분의 기존 방법은 참조 이미지(갤러리 이미지)의 영향을 무시하고 있다. 본 논문은 대응 주의 모듈(correspondence attention module)과 차이 기반 GCN(discrepancy-based GCN)과 같은 새로운 기술을 도입하여, 두 가지 패턴을 통합한 종단 간(end-to-end) 재식별 방법, 즉 CACE-Net((C)lue(A)lignment and (C)onditional (E)mbedding)을 제안한다. 실험 결과, CACE-Net은 세 가지 공개 데이터셋에서 최고 성능을 달성하며, 기존 기법들을 초월하는 결과를 보였다.