
재식별(Re-Identification)의 강건성(robustness)을 달성하기 위해 기존의 표준 방법들은 비디오 간(video-to-video) 방식으로 추적 정보를 활용한다. 그러나 이러한 접근 방식은 단일 이미지 쿼리(예: 이미지-비디오 설정) 상황에서는 성능이 크게 저하된다. 최근 연구들은 비디오 기반 네트워크로부터 시간 정보(temporal information)를 이미지 기반 네트워크로 전이함으로써 이 심각한 성능 저하 문제를 해결하고자 했다. 본 연구에서는 타겟 객체를 다양한 시점(view)으로 촬영한 일련의 관측값에서 유도되는 우수한 지식을 전이할 수 있는 학습 전략을 제안한다. 본 연구의 제안 사항인 '뷰 지식 전이(Views Knowledge Distillation, VKD)'는 교사-학생 틀(teachers-student framework) 내에서 시각적 다양성을 감독 신호로 활용한다. 여기서 교사는 더 많은 시점을 관찰하는 반면, 학생은 더 적은 수의 시점만 관찰한다. 그 결과, 학생 모델은 교사 모델을 물론 기존 최상위 기술(SOTA)보다도 크게 우수한 성능을 발휘하며, MARS에서는 6.3%의 mAP 향상, Duke-Video-ReID에서는 8.6%, VeRi-776에서는 5%의 성능 향상을 달성했다. 본 연구는 사람, 차량, 동물의 재식별을 대상으로 한 철저한 분석을 통해 VKD의 특성을 정량적·정성적으로 탐구하였다. 코드는 https://github.com/aimagelab/VKD 에서 공개되어 있다.