15일 전

기반 영상 인물 재식별을 위한 밀집 상호작용 학습

Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua
기반 영상 인물 재식별을 위한 밀집 상호작용 학습
초록

비디오 기반 인물 재식별(video-based person re-identification, re-ID)은 비디오 클립 간에 동일한 사람을 매칭하는 것을 목표로 한다. 성공적인 성과를 달성하기 위해서는 다중 스케일의 세밀한 특징을 효율적으로 활용하면서도, 이러한 특징들 간의 구조적 상호작용을 효과적으로 형성하는 것이 핵심이다. 본 논문에서는 CNN 기반 및 Attention 기반 아키텍처의 주요 장점을 결합하여 비디오 기반 인물 재식별의 과제를 해결하는 하이브리드 프레임워크인 밀도 있는 상호작용 학습(Dense Interaction Learning, DenseIL)을 제안한다. DenseIL은 CNN 인코더와 밀도 있는 상호작용(Dense Interaction, DI) 디코더로 구성된다. CNN 인코더는 분별력 있는 공간적 특징을 효율적으로 추출하는 역할을 하며, DI 디코더는 프레임 간의 공간-시간적 내재적 상호작용을 밀도 있게 모델링하는 데 특화되어 있다. 기존의 연구들과 달리, 본 논문에서는 DI 디코더가 중간 단계의 세밀한 CNN 특징들에 대해 밀도 있게 주의(attention)를 기울이도록 설계함으로써, 각 비디오 클립에 대해 다중 해상도의 공간-시간 표현을 자연스럽게 도출한다. 또한, DI 디코더에 공간-시간적 위치 임베딩(Spatio-TEmporal Positional Embedding, STEP-Emb)을 도입하여 공간-시간 입력 간의 위치 관계를 탐구한다. 실험 결과, 다양한 표준 비디오 기반 인물 재식별 데이터셋에서 DenseIL은 일관되고 유의미하게 최신 기술들보다 뛰어난 성능을 보였다.

기반 영상 인물 재식별을 위한 밀집 상호작용 학습 | 최신 연구 논문 | HyperAI초신경