비디오 기반 사람 재식별을 위한 공간-시간 표현 인자 분해

최근 영상 기반 사람 재식별(person re-identification, re-ID) 분야에서 큰 진전이 있었음에도 불구하고, 현재 최고 성능을 기록하는 방법들은 여전히 실제 환경에서 흔히 발생하는 문제들—예를 들어, 다양한 사람 간의 외형 유사성, 가림 현상, 프레임 간 정렬 오차 등—에 취약하다. 이러한 문제를 완화하기 위해 우리는 기존의 대부분의 3D 합성곱 신경망 아키텍처와 함께 사용할 수 있는 유연한 새로운 계산 단위인 시공간 표현 분해(Spatio-Temporal Representation Factorization, STRF)를 제안한다. STRF의 주요 혁신점은 구분 가능한 시간적 및 공간적 특징을 학습할 수 있도록 명시적인 경로를 제공하며, 각 구성 요소는 추가적으로 보완적인 개인 고유의 외형 정보와 운동 정보를 포착하도록 분해된다. 구체적으로, 시간적 분해는 시간에 따라 거의 변화하지 않는 정적 특징(예: 옷의 색상)을 학습하는 브랜치와 시간에 따라 변화하는 동적 특징(예: 보행 패턴)을 학습하는 브랜치로 구성된다. 또한 공간적 분해 역시 두 가지 브랜치로 구성되어 전역적(거시적 세그먼트) 및 국소적(세부 세그먼트) 외형 특징을 동시에 학습할 수 있으며, 특히 가림 또는 공간적 정렬 오차가 발생하는 경우 국소적 특징이 유용하다. 이러한 두 가지 분해 방식을 결합함으로써, 파라미터 수가 적고 모듈식인 STRF 단위를 3D 합성곱 층 사이에 간편하게 삽입할 수 있으며, 이를 통해 엔드 투 엔드 학습 프레임워크를 구축할 수 있다. 실증적으로 STRF는 다양한 기존 기준 아키텍처의 성능을 향상시킴과 동시에, 세 가지 표준 사람 재식별 평가 벤치마크에서 새로운 최고 성능을 달성함을 입증하였다.