
초록
딥러닝은 이미지 분류와 객체 검출에서 우수한 결과를 달성하는 것으로 입증되었습니다. 그러나 비디오 데이터의 복잡성과 주석 부족으로 인해, 딥러닝이 비디오 분석(예: 행동 검출 및 인식)에 미치는 영향은 제한적이었습니다. 이전의 컨볼루셔널 신경망(CNN) 기반 비디오 행동 검출 접근 방식은 일반적으로 두 가지 주요 단계로 구성됩니다: 프레임 레벨 행동 제안 검출과 프레임 간 제안 연관화입니다. 또한 이러한 방법들은 공간적 특징과 시간적 특징을 따로 처리하기 위해 두 스트림 CNN 프레임워크를 사용합니다. 본 논문에서는 비디오에서 행동을 검출하기 위한 엔드투엔드 딥 네트워크인 Tube Convolutional Neural Network(T-CNN)를 제안합니다. 제안된 아키텍처는 3D 컨볼루션 특징을 기반으로 행동을 인식하고 위치를 결정할 수 있는 통합된 네트워크입니다. 먼저 비디오가 동일한 길이의 클립으로 나누어지고, 각 클립에 대해 3D 컨볼루셔널 네트워크(ConvNet) 특징을 기반으로 튜브 제안들이 생성됩니다. 마지막으로, 서로 다른 클립들의 튜브 제안들은 네트워크 흐름을 활용하여 연결되며, 이러한 연결된 비디오 제안들을 사용하여 시공간적인 행동 검출이 수행됩니다. 여러 비디오 데이터셋에 대한 광범위한 실험 결과는 T-CNN이 최신 연구들과 비교하여 잘라낸 비디오와 잘라내지 않은 비디오 모두에서 행동 분류와 위치 결정에 있어 우수한 성능을 보이는 것을 증명하였습니다.