2달 전
비디오에서 활동 위치 추정을 위한 시계열 맥락 네트워크
Xiyang Dai; Bharat Singh; Guyue Zhang; Larry S. Davis; Yan Qiu Chen

초록
우리는 인간 활동의 정확한 시간적 위치 추정을 위한 시간적 문맥 네트워크(TCN)를 제시합니다. Faster-RCNN 아키텍처와 유사하게, 비디오 내에서 여러 시간적 스케일을 포괄하는 일정 간격으로 프로포즈가 배치됩니다. 우리는 이러한 프로포즈를 순위 매기기 위한 새로운 표현 방법을 제안합니다. 세그먼트 내부의 특징만 풀링하는 것이 활동 경계를 예측하기에 충분하지 않으므로, 프로포즈 주변의 문맥을 명시적으로 포착하여 순위를 매기는 표현 방법을 구성합니다. 각 프로포즈 내부의 시간적 세그먼트에 대해 두 개의 스케일에서 균일하게 샘플링된 특징이 시간적 합성곱 신경망에 입력되어 분류됩니다. 프로포즈 순위 매기기가 완료되면, 최대 억제(non-maximum suppression)가 적용되고 분류가 수행되어 최종 검출 결과를 얻습니다. TCN은 ActivityNet 데이터셋과 THUMOS14 데이터셋에서 기존 최신 방법들을 능가하는 성능을 보입니다.