18일 전

효율적인 거친부터 세밀한 단계로의 네트워크를 통한 동작 및 제스처 인식

{Peng Dai, Juwei Lu, Wei Li, Niamul Quader}
효율적인 거친부터 세밀한 단계로의 네트워크를 통한 동작 및 제스처 인식
초록

비디오 기반 동작 및 제스처 인식에 대한 최신 접근 방식은 일반적으로 두 가지 핵심 개념을 활용한다. 첫째, 다중 스트림 처리를 적용하고, 둘째, 합성 컨볼루션 네트워크(ensemble of convolutional networks)를 사용한다. 본 연구에서는 이 두 가지 측면을 개선하고 확장한다. 먼저, 입력 영상에 대해 공간적 및 시간적 차원에서 거시적에서 미시적 방향으로의 분해를 체계적으로 수행함으로써 보다 강화된 수용 영역(receptive fields)을 도출하여 보완적인 특징 추출을 가능하게 하고, 재파라미터화된 완전 연결층을 활용하여 학습 과정에서 중요한 특징 경로에 적응적으로 집중한다. 둘째, 데이터에 따라 고해상도 처리를 선택적으로 사용할 수 있도록 ‘필요할 때만 사용’(use when needed)하는 전략과 ‘거시적 탈출’(coarse-exit) 전략을 도입하여 정확도를 유지하면서도 계산 비용을 감소시킨다. 제안하는 C2F 학습 방식은 Something-Something V1, V2 및 Jester 데이터셋에서 계산 비용을 줄이면서도 정확도를 향상시키는 면에서 대부분의 경쟁 기법들을 능가하며, Kinetics-400 데이터셋에서도 경쟁력을 유지한다. 특히 본 연구의 C2F 합성 네트워크는 다양한 계산 예산 제약 조건 하에서도 운영이 가능하다는 점에서 독창성을 지닌다.