EAN: 이벤트 적응형 네트워크를 통한 향상된 액션 인식

비디오에서 공간-시간 정보를 효율적으로 모델링하는 것은 행동 인식에 있어 핵심적인 과제이다. 이를 달성하기 위해 최신 기법들은 일반적으로 컨볼루션 연산자와 비어 있는 상호작용 모듈(예: 비국소 블록 등)을 활용한다. 그러나 이러한 방법들은 비디오 내 다양한 사건들을 정확히 모델링하기 어려운 한계를 지닌다. 한편으로, 사용되는 컨볼루션은 고정된 스케일을 가지므로 다양한 크기의 사건에 대응하는 데 어려움이 있다. 다른 한편으로, 밀도 높은 상호작용 모델링 방식은 행동과 무관한 부분들이 최종 예측에 부가적인 노이즈를 유발하므로 부분적으로만 최적의 성능을 달성할 뿐이다. 본 논문에서는 비디오 콘텐츠의 동적 특성을 탐구하기 위해 다음과 같은 설계를 도입한 통합적인 행동 인식 프레임워크를 제안한다. 첫째, 국소적 특징을 추출할 때 다양한 사건에 적응할 수 있도록 동적 스케일의 공간-시간 커널을 생성한다. 둘째, 이러한 특징을 정확히 전역적인 비디오 표현으로 통합하기 위해, 트랜스포머를 활용해 일부 선택된 전경 객체들 간의 상호작용만을 탐색하는 희소적 패러다임을 제안한다. 본 프레임워크는 이러한 핵심 설계들이 입력 비디오 콘텐츠에 따라 적응 가능하다는 점에서 이벤트 적응형 네트워크(Event Adaptive Network, EAN)라 명명한다. 또한, 국소 세그먼트 내 짧은 운동 정보를 효과적으로 활용하기 위해 새로운 효율적인 잠재 운동 코드(Latent Motion Code, LMC) 모듈을 제안함으로써 프레임워크의 성능을 더욱 향상시켰다. 다양한 대규모 비디오 데이터셋(Something-to-Something V1&V2, Kinetics, Diving48 등)에서 실시한 광범위한 실험을 통해 제안 모델이 낮은 FLOPs에서도 최신 기술 수준 또는 경쟁 가능한 성능을 달성함을 입증하였다. 코드는 다음 주소에서 제공된다: https://github.com/tianyuan168326/EAN-Pytorch.