
초록
우리는 2D 이미지 분석에 성공적으로 사용된 의미 전송 기술에서 영감을 받은 비디오 이해의 일반적인 접근법을 제시합니다. 우리의 방법은 비디오를 각각 고유한 의미와 연결된 1D 클립 시퀀스로 간주합니다. 이러한 의미의 특성 -- 자연어 캡션 또는 기타 라벨 --는 수행하려는 작업에 따라 달라집니다. 테스트 비디오는 알려진 의미를 가진 참조 비디오의 클립과 테스트 클립 간의 대응 관계를 형성함으로써 처리됩니다. 이 과정 후, 참조 비디오의 의미가 테스트 비디오로 전송될 수 있습니다. 우리는 두 가지 매칭 방법을 설명하는데, 이들 모두 (a) 참조 클립이 테스트 클립과 유사하게 보이고 (b) 선택된 참조 클립들의 의미가 일관되며 시간적 일관성을 유지하도록 설계되었습니다. 우리는 LSMDC'16 벤치마크에서 비디오 캡셔닝, SumMe 및 TVSum 벤치마크에서 비디오 요약, Thumos2014 벤치마크에서 시간적 행동 검출, 그리고 Greatest Hits 벤치마크에서 사운드 예측에 이 방법을 사용했습니다. 우리의 방법은 다섯 개 벤치마크 중 네 개에서 최신 연구를 능가할 뿐만 아니라, 중요한 점은 이러한 다양한 작업에 성공적으로 적용된 유일한 단일 방법이라는 것입니다.