
자연어(NL) 사용자 질의를 기반으로 비디오에서 맞춤형 순간과 하이라이트를 탐지하는 것은 중요한 주제이지만 여전히 연구가 부족한 분야이다. 이 방향성을 추구하는 데 있어 주요 과제 중 하나는 주석이 달린 데이터의 부족이다. 이러한 문제를 해결하기 위해, 우리는 질의 기반 비디오 하이라이트(Query-based Video Highlights, QVHighlights) 데이터셋을 제안한다. 이 데이터셋은 일상적인 활동과 라이프스타일 블로그 영상에서부터 뉴스 영상에 등장하는 사회적·정치적 활동에 이르기까지 다양한 주제를 포함한 1만 개 이상의 YouTube 영상으로 구성되어 있다. 각 영상은 다음과 같은 세 가지 정보를 포함하여 주석이 달렸다: (1) 인간이 작성한 자유형 자연어 질의, (2) 해당 질의와 관련된 영상 내 특정 순간들, (3) 질의와 관련된 모든 클립에 대한 5점 척도의 주목도(saliency) 점수. 이러한 포괄적인 주석은 다양한 유연한 사용자 질의에 대해 관련 순간과 주목도 높은 하이라이트를 탐지하고 평가할 수 있는 시스템 개발을 가능하게 한다. 또한 본 작업을 위한 강력한 베이스라인 모델인 Moment-DETR을 제시한다. 이 모델은 트랜스포머 기반의 인코더-디코더 아키텍처로, 순간 탐지 문제를 직접적인 세트 예측 문제로 간주하며, 추출된 비디오 표현과 질의 표현을 입력으로 받아 끝점 좌표와 주목도 점수를 종단 간(end-to-end)으로 예측한다. 인간의 사전 지식을 전혀 사용하지 않음에도 불구하고, 잘 설계된 기존 아키텍처들과 비교했을 때 경쟁력 있는 성능을 보여준다. 또한 ASR 캡션을 활용한 약한 감독(pretraining)을 통해 Moment-DETR은 기존 방법들을 크게 능가한다. 마지막으로, Moment-DETR에 대한 여러 가지 아블레이션 및 시각화 결과도 제시한다. 데이터와 코드는 공개적으로 https://github.com/jayleicn/moment_detr 에서 제공된다.