17일 전
공간과 시간에서의 자기유사성 학습: 영상 행동 인식을 위한 일반화된 운동
Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho

초록
시공간 컨볼루션은 영상에서 운동 동역학을 효과적으로 학습하지 못하는 경우가 많으며, 따라서 실제 환경에서의 영상 이해를 위해 효과적인 운동 표현이 필요하다. 본 논문에서는 시공간 자기유사성(Spatio-temporal self-similarity, STSS) 기반의 풍부하고 강건한 운동 표현을 제안한다. 주어진 프레임 시퀀스에 대해 STSS는 각 국소 영역을 공간적·시간적으로 인접한 영역들과의 유사성으로 표현한다. 외형 특징을 관계적 값으로 변환함으로써, 학습자가 공간적·시간적 구조 패턴을 더 잘 인식할 수 있도록 한다. 우리는 STSS의 전체 볼륨을 활용하여 모델이 이를 기반으로 효과적인 운동 표현을 추출하도록 학습시킨다. 제안하는 신경 블록인 SELFY는 신경망 아키텍처에 쉽게 삽입 가능하며, 추가적인 감독 없이 엔드투엔드로 학습이 가능하다. 공간적·시간적 이웃 영역의 충분한 범위를 고려함으로써, 영상 내 장기적 상호작용과 빠른 운동을 효과적으로 포착할 수 있어, 강건한 행동 인식 성능을 달성한다. 실험 분석을 통해 기존의 운동 모델링 방법들에 비해 우수한 성능을 보이며, 직접 컨볼루션을 통한 시공간 특징과의 보완적인 관계도 확인하였다. 표준 행동 인식 벤치마크인 Something-Something-V1 & V2, Diving-48, FineGym에서 제안한 방법은 최신 기술 수준(SOTA)의 성능을 달성하였다.