
초록
우리는 편집되지 않은 긴 비디오에서 시간적 행동 위치 추정 문제를 다룹니다. 이는 실제 응용 프로그램에서 비디오가 일반적으로 제약 없이 여러 행동 인스턴스와 배경 장면 또는 다른 활동의 비디오 콘텐츠를 포함하기 때문에 중요합니다. 이 어려운 문제를 해결하기 위해, 세 가지 세그먼트 기반 3D ConvNets을 활용하여 시간적 행동 위치 추정에 대한 딥 네트워크의 효과성을 탐구합니다: (1) 제안 네트워크는 긴 비디오에서 행동이 포함될 가능성이 있는 후보 세그먼트를 식별합니다; (2) 분류 네트워크는 하나 대 모든 행동 분류 모델을 학습하여 위치 추정 네트워크의 초기화에 사용됩니다; (3) 위치 추정 네트워크는 학습된 분류 네트워크를 미세 조정하여 각 행동 인스턴스의 위치를 정확히 추정합니다. 우리는 시간적 겹침을 명시적으로 고려하는 새로운 손실 함수를 제안하여 높은 시간적 위치 추정 정확도를 달성할 수 있습니다. 예측 시에는 제안 네트워크와 위치 추정 네트워크만 사용됩니다. 두 개의 대규모 벤치마크에서 우리의 접근 방식은 다른 최신 시스템들보다 현저히 우수한 성능을 보입니다: 평가의 겹침 임계값이 0.5로 설정될 때, MEXaction2에서는 mAP(평균 정밀도)가 1.7%에서 7.4%로 증가하고, THUMOS 2014에서는 15.0%에서 19.0%로 증가했습니다.