2달 전
시간적 합성곱 네트워크를 이용한 행동 분할 및 감지
Colin Lea; Michael D. Flynn; Rene Vidal; Austin Reiter; Gregory D. Hager

초록
비디오 전체에서 미세한 인간 행동을 식별하고 시간적으로 분할하는 능력은 로보틱스, 감시, 교육 등 다양한 분야에서 매우 중요합니다. 일반적인 접근 방식은 이 문제를 먼저 비디오 프레임에서 지역적 시공간 특징을 추출한 후 이를 고차원적인 시간 패턴을 포착하는 시간 분류기에 입력하여 해결합니다. 우리는 이러한 문제를 해결하기 위해 시간 합성곱 계층의 계층구조를 사용하여 미세한 행동 분할 또는 탐지를 수행하는 새로운 종류의 시간 모델인 시간 합성곱 네트워크(TCNs, Temporal Convolutional Networks)를 소개합니다. 우리의 인코더-디코더 TCN은 풀링과 업샘플링을 사용하여 효율적으로 장기적인 시간 패턴을 포착하며, 다ilated TCN은 확장 합성곱(dilated convolutions)을 사용합니다. 우리는 TCNs가 행동 구성, 세그먼트 지속시간, 그리고 장기적 의존성을 포착할 수 있으며, 경쟁 모델인 LSTM 기반 순환 신경망보다 10배 이상 빠르게 학습된다는 것을 보여줍니다. 이러한 모델들을 세 가지 도전적인 미세한 데이터셋에 적용하여 기존 최신 기술보다 큰 개선을 이루었음을 입증하였습니다.