18일 전
액션 인식을 위한 동적 이미지 네트워크
{Stephen Gould, Hakan Bilen, Efstratios Gavves, Andrea Vedaldi, Basura Fernando}

초록
우리는 동적 이미지(dynamic image)라는 개념을 제안한다. 이는 특히 합성곱 신경망(CNN)을 사용할 때 유용한 비디오의 새로운 컴팩트한 표현 방식이다. 동적 이미지는 랭킹 풀링(rank pooling) 개념에 기반하며, 비디오 프레임의 시계열적 변화를 인코딩하는 랭킹 머신의 파라미터를 통해 얻어진다. 동적 이미지는 비디오의 원시 이미지 픽셀에 직접 랭킹 풀링을 적용함으로써, 각 비디오당 하나의 RGB 이미지로 생성된다. 이 아이디어는 간단하지만 강력하여, 기존의 CNN 모델을 비디오 데이터에 직접 적용하고 미세조정(fine-tuning)을 통해 사용할 수 있게 한다. 우리는 기존 랭킹 풀링보다 수배 이상 빠른 효율적이고 효과적인 근사 랭킹 풀링 연산자를 제안한다. 본 연구에서 제안하는 새로운 근사 랭킹 풀링 CNN 레이어를 통해 동적 이미지를 동적 특징 맵(dynamic feature maps)으로 일반화할 수 있으며, 행동 인식의 표준 벤치마크에서 제안하는 새로운 표현 방식의 강력함을 입증하며 최신 기술 수준(SOTA, state-of-the-art)의 성능을 달성한다.