2달 전

TVR: 비디오-자막 순간 검색을 위한 대규모 데이터셋

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
TVR: 비디오-자막 순간 검색을 위한 대규모 데이터셋
초록

우리는 영상과 관련된 자막(대사) 텍스트를 모두 이해해야 하는 새로운 다중모달 검색 데이터셋인 TV 쇼 검색(TV show Retrieval, TVR)을 소개한다. TVR은 영상과 자막 텍스트를 함께 고려해야 하므로 현실성 있는 시나리오를 반영한다. 이 데이터셋은 다양한 장르의 6개 TV 쇼에서 수집한 총 21,800개의 영상에 대해 109,000개의 질의(query)를 포함하고 있으며, 각 질의는 정밀한 시간 창(temporal window)과 연관되어 있다. 또한 각 질의는 영상 중심, 자막 중심, 또는 양쪽 모두와 관련된 질의 유형(query type)으로 레이블링되어 있어, 데이터셋과 이를 기반으로 개발된 방법론에 대한 심층적인 분석이 가능하다. 수집된 데이터의 품질을 보장하기 위해 엄격한 자격 기준과 후속 검증 절차를 적용하였다. 더불어, 다중모달 순간 검색(multimodal moment retrieval) 작업을 위한 몇 가지 베이스라인과 새로운 크로스모달 순간 위치 탐지(Cross-modal Moment Localization, XML) 네트워크를 제안한다. 제안된 XML 모델은 새로운 컨볼루션 시작-끝 탐지기(Convolutional Start-End detector, ConvSE)를 활용한 후기 융합(late fusion) 설계를 채택하여 기존 베이스라인을 크게 상회하면서도 더 높은 효율성을 제공하여 향후 연구에 강력한 기반을 마련한다. 또한 TVR 내 각 주석된 순간에 대해 추가적인 설명을 수집하여 총 262,000개의 설명을 포함하는 새로운 다중모달 캡션 데이터셋 TV 쇼 캡션(TV show Caption, TVC)을 구성하였다. 두 데이터셋 모두 공개되어 있으며, 각각 다음과 같은 링크에서 접근 가능하다. TVR: https://tvr.cs.unc.edu, TVC: https://tvr.cs.unc.edu/tvc.html.