2달 전

시간 풀링을 넘어서: 제스처 인식을 위한 비디오에서의 순환과 시간적 합성곱

Lionel Pigou; Aäron van den Oord; Sander Dieleman; Mieke Van Herreweghe; Joni Dambre
시간 풀링을 넘어서: 제스처 인식을 위한 비디오에서의 순환과 시간적 합성곱
초록

최근의 연구들은 순환 신경망이 기계 번역, 이미지 캡셔닝 및 음성 인식에 있어 강력한 성능을 보임을 입증하였습니다. 그러나 비디오에서 시간적 구조를 포착하는 작업에 대해서는 여전히 많은 연구 질문들이 남아 있습니다. 현재 연구에서는 비디오의 시간적 측면을 고려하기 위해 간단한 시간적 특성 풀링 전략을 사용할 것을 제안하고 있습니다. 하지만 우리는 이 방법이 제스처 인식에는 충분하지 않다는 것을 보여주는데, 제스처 인식에서 시간 정보는 일반적인 비디오 분류 작업보다 더 판별적으로 작용하기 때문입니다. 우리는 비디오에서의 제스처 인식을 위한 깊은 구조들을 탐구하고, 시간 합성곱과 양방향 순환성을 통합한 새로운 엔드투엔드 학습 가능한 신경망 구조를 제안합니다. 우리의 주요 기여점은 두 가지로 요약됩니다: 첫째, 순환성이 이 작업에 필수적이라는 점을 보여줍니다; 둘째, 시간 합성곱을 추가하면 상당한 개선 효과가 있다는 점을 입증합니다. 우리는 몬탈바노(Montalbano) 제스처 인식 데이터셋에서 다양한 접근법들을 평가하였으며, 여기서 최신 기술 수준의 결과를 달성하였습니다.

시간 풀링을 넘어서: 제스처 인식을 위한 비디오에서의 순환과 시간적 합성곱 | 최신 연구 논문 | HyperAI초신경