15일 전

비디오 기반 인물 재식별을 위한 피라미드 공간-시간 집약

{Dong Wang, Hu Lu, Xia Geng, Shang Gao, Pingping Zhang, Yingquan Wang}
비디오 기반 인물 재식별을 위한 피라미드 공간-시간 집약
초록

비디오 기반 개인 재식별(Re-identification)은 여러 겹치지 않는 카메라 간에 동일한 사람의 비디오 클립을 연결하는 것을 목표로 한다. 공간-시간 표현은 프레임 간에 더 풍부하고 보완적인 정보를 제공하며, 특히 가려짐(occlusion) 상황에서 대상 개인을 구분하는 데 핵심적인 역할을 한다. 본 논문에서는 프레임 수준 특징을 점진적으로 집계하고 계층적인 시간 정보를 최종 비디오 수준 표현으로 융합하기 위한 새로운 피라미드 공간-시간 집계(Pyramid Spatial-Temporal Aggregation, PSTA) 프레임워크를 제안한다. 이를 통해 각 계층이 단기 및 장기 시간 정보를 효과적으로 활용할 수 있다. 또한 PSTA의 집계 능력을 강화하기 위해 공간-시간 집계 모듈(Spatial-Temporal Aggregation Module, STAM)을 도입하였다. STAM은 두 가지 새로운 주의(attention) 블록으로 구성되며, 공간 기반 주의(Spatial Reference Attention, SRA)와 시간 기반 주의(Temporal Reference Attention, TRA)이다. SRA는 한 프레임 내부의 공간적 상관관계를 탐색하여 각 위치에 대한 주의 가중치를 결정한다. 반면 TRA는 인접 프레임 간의 상관관계를 추가로 고려함으로써 시간적 일관성 정보를 충분히 탐색하여 간섭 특징을 억제하고 구분 능력이 뛰어난 특징을 강화한다. 다양한 도전적인 벤치마크에서 실시한 광범위한 실험을 통해 제안된 PSTA의 효과성을 입증하였으며, 전체 모델은 MARS 및 DukeMTMC-VID 벤치마크에서 각각 91.5% 및 98.3%의 Rank-1 정확도를 달성하였다.

비디오 기반 인물 재식별을 위한 피라미드 공간-시간 집약 | 최신 연구 논문 | HyperAI초신경