부분적으로 관련된 비디오 검색

현재의 텍스트-비디오 검색(T2VR) 방법들은 MSVD, MSR-VTT 및 VATEX와 같은 비디오 자막 중심 데이터셋에서 훈련 및 테스트됩니다. 이러한 데이터셋의 주요 특성은 비디오가 시간적으로 미리 잘라져 짧은 기간을 가지며, 제공된 자막이 비디오 내용의 핵심을 잘 설명한다는 것입니다. 따라서 주어진 비디오-자막 쌍에 대해 비디오는 자막과 완전히 관련되어야 합니다. 그러나 실제로는 쿼리가 사전에 알려지지 않기 때문에, 미리 잘라진 비디오 클립이 쿼리를 완전히 충족시키기에 충분한 내용을 포함하지 않을 수 있습니다. 이는 문헌과 실제 세계 사이에 차이가 있음을 시사합니다. 이러한 차이를 메우기 위해 본 논문에서는 새로운 T2VR 하위 작업인 부분적으로 관련된 비디오 검색(PRVR)을 제안합니다. 주어진 텍스트 쿼리에 대해 미처리된 비디오가 쿼리와 관련된 순간을 포함하고 있다면, 해당 비디오는 부분적으로 관련된 것으로 간주됩니다. PRVR은 대규모 미처리 비디오 컬렉션에서 이러한 부분적으로 관련된 비디오들을 검색하는 것을 목표로 합니다. PRVR은 단일 비디오 순간 검색과 비디오 코퍼스 순간 검색과 다르며, 후자의 두 경우는 순간을 검색하는 것이 아니라 미처리된 비디오를 검색합니다. 우리는 PRVR을 다중 인스턴스 학습(MIL) 문제로 정식화하였습니다. 여기서 하나의 비디오는 여러 개의 비디오 클립과 여러 개의 프레임으로 구성된 집합으로 동시에 봅니다. 클립과 프레임은 서로 다른 시간 스케일에서의 비디오 내용을 표현합니다. 우리는 클립 스케일과 프레임 스케일 유사성을 동시에 학습하기 위한 다중 스케일 유사성 학습(MS-SL) 네트워크를 제안합니다. TVR, ActivityNet Captions 및 Charades-STA 세 가지 데이터셋에서 수행한 광범위한 실험 결과는 제안된 방법의 타당성을 입증하였습니다. 또한 우리의 방법이 비디오 코퍼스 순간 검색 성능 향상에도 활용될 수 있음을 보여주었습니다.