
비디오 기반 개인 재식별(reID)은 여러 카메라 간에 쿼리 개인과 동일한 정체성을 가진 개인의 비디오를 검색하는 것을 목표로 한다. 개인 비디오 내에는 공간적 방해요소(예: 배경의 혼잡함)와 시간적 방해요소(예: 프레임 간 부분적인 가림)가 존재하며, 이러한 요소들은 이미지 기반 개인 재식별보다 이 작업을 훨씬 더 어렵게 만든다. 우리는 공간적 방해요소가 특정 위치에 지속적으로 나타나며, 시간적 방해요소는 여러 패턴을 보인다는 점을 관찰하였다. 예를 들어, 부분적인 가림은 초기 몇 프레임에서 자주 발생하며, 이러한 패턴은 어떤 프레임에 주의를 집중할지(즉, 시간적 주의) 예측하는 데 유용한 정보를 제공한다. 이를 바탕으로 우리는 새로운 공간-시간 메모리 네트워크(Spatial and Temporal Memory Networks, STMN)를 제안한다. 공간 메모리는 비디오 프레임 간에 자주 나타나는 공간적 방해요소에 대한 특징을 저장하고, 시간 메모리는 개인 비디오에서 일반적인 시간적 패턴에 최적화된 주의(attention)를 저장한다. 본 연구는 공간 메모리를 통해 프레임 수준의 개인 표현을 개선하고, 시간 메모리를 통해 개선된 프레임 수준 특징을 시퀀스 수준의 개인 표현으로 통합함으로써, 개인 비디오 내의 공간적 및 시간적 방해요소를 효과적으로 처리한다. 또한, 메모리에 특정 항목에만 집중하는 것을 방지하기 위해 메모리 확산 손실(loss)을 도입한다. MARS, DukeMTMC-VideoReID, LS-VID 등 표준 벤치마크에서의 실험 결과를 통해 제안한 방법의 효과성을 입증하였다.