2달 전
비디오에서 사람 재식별을 위한 시공간 상관관계 및 토폴로지 학습
Jiawei Liu; Zheng-Jun Zha; Wei Wu; Kecheng Zheng; Qibin Sun

초록
비디오 기반 사람 재식별은 비디오 시퀀스에서 중첩되지 않는 카메라 뷰 간에 보행자를 일치시키는 것을 목표로 합니다. 비디오 사람 재식별의 핵심 요인은 비디오 시퀀스에서 공간적 및 시간적 단서를 효과적으로 활용하는 것입니다. 본 연구에서는 크로스 스케일 공간-시간 상관 관계를 모델링하여 차별적이고 강건한 표현을 추구하기 위해 새로운 공간-시간 상관 및 토폴로지 학습 프레임워크(Spatial-Temporal Correlation and Topology Learning framework, CTL)를 제안합니다. 구체적으로, CTL은 CNN 백본과 키포인트 추정기를 사용하여 인간 신체에서 다중 세분도(granularities)의 의미론적 로컬 특징을 그래프 노드로 추출합니다. 이 프레임워크는 전역 컨텍스트 정보와 인간 신체의 물리적 연결성을 고려하여 다중 스케일 그래프를 구성하기 위한 컨텍스트 강화 토폴로지를 탐색합니다. 또한, 3D 그래프 컨볼루션과 크로스 스케일 그래프 컨볼루션이 설계되어 있으며, 이들은 계층적인 공간-시간 의존성과 구조적 정보를 포착하기 위해 직접적인 크로스 스페이스타임(cross-spacetime) 및 크로스 스케일 정보 전파를 촉진합니다. 두 개의 컨볼루션을 동시에 수행함으로써, CTL은 외형 정보와 보완적인 포괄적인 단서를 효과적으로 발굴하여 표현 능력을 향상시킵니다. 두 개의 비디오 벤치마크에서 수행된 광범위한 실험 결과, 제안된 방법의 유효성과 최신 성능이 입증되었습니다.