2달 전

시간적 타일링: 비디오 분석을 위한 통합 접근법

Dotan Kaufman; Gil Levi; Tal Hassner; Lior Wolf

초록

우리는 2D 이미지 분석에 성공적으로 사용된 의미 전송 기술에서 영감을 받은 비디오 이해의 일반적인 접근법을 제시합니다. 우리의 방법은 비디오를 각각 고유한 의미와 연결된 1D 클립 시퀀스로 간주합니다. 이러한 의미의 특성 -- 자연어 캡션 또는 기타 라벨 --는 수행하려는 작업에 따라 달라집니다. 테스트 비디오는 알려진 의미를 가진 참조 비디오의 클립과 테스트 클립 간의 대응 관계를 형성함으로써 처리됩니다. 이 과정 후, 참조 비디오의 의미가 테스트 비디오로 전송될 수 있습니다. 우리는 두 가지 매칭 방법을 설명하는데, 이들 모두 (a) 참조 클립이 테스트 클립과 유사하게 보이고 (b) 선택된 참조 클립들의 의미가 일관되며 시간적 일관성을 유지하도록 설계되었습니다. 우리는 LSMDC'16 벤치마크에서 비디오 캡셔닝, SumMe 및 TVSum 벤치마크에서 비디오 요약, Thumos2014 벤치마크에서 시간적 행동 검출, 그리고 Greatest Hits 벤치마크에서 사운드 예측에 이 방법을 사용했습니다. 우리의 방법은 다섯 개 벤치마크 중 네 개에서 최신 연구를 능가할 뿐만 아니라, 중요한 점은 이러한 다양한 작업에 성공적으로 적용된 유일한 단일 방법이라는 것입니다.