2달 전
TSP: 시간에 민감한 비디오 인코더의 사전 학습 방법론 위치 추정 작업을 위한
Humam Alwassel; Silvio Giancola; Bernard Ghanem

초록
비편집된 비디오의 큰 메모리 용량 때문에, 현재 최신의 비디오 위치 추정 방법들은 사전 계산된 비디오 클립 특징 위에서 작동합니다. 이러한 특징은 일반적으로 편집된 행동 분류 작업을 위해 훈련된 비디오 인코더에서 추출되므로, 시간적 위치 추정에 적합하지 않을 수 있습니다. 본 연구에서는 활동 분류뿐만 아니라 배경 클립과 전역적인 비디오 정보를 고려하여 시간적 감도를 개선하는 새로운 지도 사전 학습 패러다임을 제안합니다. 광범위한 실험 결과, 우리의 새로운 사전 학습 전략으로 훈련된 특징을 사용하면 세 가지 작업(시간적 행동 위치 추정, 행동 제안 생성, 밀집형 비디오 캡셔닝)에서 최근의 최신 방법들의 성능이 크게 향상됨을 보여줍니다. 또한 우리의 사전 학습 접근 방식이 세 가지 인코더 아키텍처와 두 가지 사전 학습 데이터셋에서 효과적임을 입증하였습니다. 우리는 비디오 특징 인코딩이 위치 추정 알고리즘의 중요한 구성 요소이며, 시간적으로 민감한 특징을 추출하는 것이 더 정확한 모델 구축에 있어 가장 중요하다고 믿습니다. 코드와 사전 학습된 모델은 프로젝트 웹사이트에서 제공됩니다.