자기 유사성 유지와 영역 비유사성을 활용한 이미지-이미지 영역 적응을 통한 사람 재식별

개인 재식별(re-ID) 모델은 한 도메인에서 훈련되었을 때 다른 도메인으로의 일반화가 잘 이루어지지 않는 경우가 많습니다. 본 연구에서는 "번역을 통한 학습" 프레임워크를 제시합니다. 기준 모델에서는 소스 도메인의 라벨이 부착된 이미지를 비지도 방식으로 대상 도메인으로 번역합니다. 그런 다음 번역된 이미지를 사용하여 지도 학습 방법으로 re-ID 모델을 훈련시킵니다. 그러나 이 프레임워크의 필수적인 부분인 비지도 이미지-이미지 번역은 번역 과정에서 소스 도메인의 라벨 정보 손실 문제를 겪습니다.본 연구의 동기는 두 가지입니다. 첫째, 각 이미지는 그 ID 라벨에 포함된 구분적 신호가 번역 후에도 유지되어야 합니다. 둘째, 두 도메인이 완전히 다른 사람들을 가지고 있다는 점을 고려할 때, 번역된 이미지는 대상 ID들 중 어느 것과도 유사하지 않아야 합니다. 이를 위해 우리는 비지도 유사성을 두 가지 유형으로 보존하는 것을 제안합니다: 1) 번역 전후의 이미지 자기 유사성(self-similarity), 2) 번역된 소스 이미지와 대상 이미지 간의 도메인 비유사성(domain-dissimilarity). 이러한 두 가지 제약 조건은 쌍생 네트워크(Siamese network)와 사이클 게너레이티브 애드버서리얼 네트워크(CycleGAN)로 구성된 유사성 보존 생성적 적대 네트워크(SPGAN, Similarity Preserving Generative Adversarial Network)에서 구현됩니다. 도메인 적응 실험을 통해 SPGAN이 생성한 이미지가 도메인 적응에 더 적합하며, 두 개의 대규모 데이터셋에서 일관되고 경쟁력 있는 re-ID 정확도를 제공함을 보여줍니다.