
초록
이 연구에서는 비디오에서 행동을 감지하기 위한 완전한 엔드투엔드 접근 방식을 소개합니다. 이 접근 방식은 행동의 시간적 범위를 직접 예측하도록 학습됩니다. 우리의 직관은 행동 감지 과정이 자연스럽게 관찰과 개선의 과정이라는 것입니다: 비디오의 순간들을 관찰하고, 행동이 언제 발생하는지에 대한 가설을 개선합니다. 이러한 인사이트를 바탕으로, 우리의 모델은 시간 경과에 따라 비디오와 상호작용하는 순환 신경망 기반 에이전트로 구성되었습니다. 에이전트는 비디오 프레임을 관찰하고, 다음에 어디를 볼 것인지와 언제 예측을 출력할 것인지 결정합니다. 역전파가 이 미분 불가능한 환경에서 충분하지 않기 때문에, 우리는 REINFORCE 알고리즘을 사용하여 에이전트의 결정 정책을 학습시킵니다. 우리의 모델은 THUMOS'14 및 ActivityNet 데이터셋에서 최고 수준의 결과를 달성하며, 비디오 프레임의 일부만 (2% 또는 그 미만) 관찰함으로써 이를 이룹니다.