14일 전

어디서, 언제, 무엇을 봐야 하는지 알고 있는 것: 어텐션을 활용한 효율적인 비디오 행동 모델링

Juan-Manuel Perez-Rua, Brais Martinez, Xiatian Zhu, Antoine Toisoul, Victor Escorcia, Tao Xiang
어디서, 언제, 무엇을 봐야 하는지 알고 있는 것: 어텐션을 활용한 효율적인 비디오 행동 모델링
초록

제약 없는 비디오에서 행동 인식을 위해서는 주의(attention) 기반의 비디오 모델링이 필수적이다. 왜냐하면 이러한 비디오는 공간적·시간적으로 풍부한 정보를 제공하지만 동시에 중복된 정보도 포함하기 때문이다. 그러나 딥 신경망에 주의 메커니즘을 도입하는 것은 두 가지 이유로 도전적이다. 첫째, 효과적인 주의 모듈은 무엇(객체 및 그 지역적 운동 패턴), 어디(공간적으로), 언제(시간적으로) 주목해야 할지를 학습할 수 있어야 한다. 둘째, 비디오 주의 모듈은 효율적이어야 한다. 왜냐하면 기존의 행동 인식 모델들이 이미 높은 계산 비용을 겪고 있기 때문이다. 이러한 두 가지 도전 과제를 해결하기 위해, 새로운 '무엇-어디-언제(What-Where-When, W3)' 비디오 주의 모듈을 제안한다. 기존의 접근 방식과 달리, 본 연구의 W3 모듈은 비디오 주의의 세 가지 측면을 통합적으로 모델링한다. 특히, 고차원의 비디오 특징 데이터를 낮은 차원의 의미 있는 공간으로 분해함으로써 매우 효율적인 구조를 구현한다. 구체적으로, '무엇'에 대한 정보는 1차원 채널 벡터로, '어디'에 대한 정보는 2차원 공간 텐서로 표현하고, 이후 경량적인 시간적 주의 추론을 수행한다. 광범위한 실험을 통해 제안된 주의 모델이 기존 행동 인식 모델에 큰 성능 향상을 가져왔으며, 여러 벤치마크에서 새로운 최고 성능(SOTA)을 달성함을 확인하였다.