2달 전

UniVTG: 통합된 비디오-언어 시간적 정렬을 향하여

Lin, Kevin Qinghong ; Zhang, Pengchuan ; Chen, Joya ; Pramanick, Shraman ; Gao, Difei ; Wang, Alex Jinpeng ; Yan, Rui ; Shou, Mike Zheng
UniVTG: 통합된 비디오-언어 시간적 정렬을 향하여
초록

비디오 시간적 지정(Video Temporal Grounding, VTG)은 사용자 정의 언어 쿼리(예: 문장이나 단어)에 따라 비디오에서 대상 클립(연속적인 구간이나 분리된 샷)을 지정하는 것을 목표로 하는 기술로, 소셜 미디어에서의 비디오 검색에 있어 핵심적인 역할을 합니다. 이 방향의 대부분의 방법들은 특정 유형의 라벨(예: 순간 검색(time interval) 및 하이라이트 감지(worthiness curve))을 사용하여 태스크별 모델을 개발하는데, 이는 다양한 VTG 태스크와 라벨에 대한 일반화 능력을 제한합니다. 본 논문에서는 세 가지 방향으로 다양한 VTG 라벨과 태스크를 통합하는 방법인 UniVTG를 제안합니다.첫째, 우리는 다양한 범위의 VTG 라벨과 태스크를 재검토하고 통합된 공식을 정의합니다. 이를 바탕으로 확장 가능한 가상 감독 데이터 생성을 위한 데이터 주석 방안을 개발합니다. 둘째, 각 태스크를 처리하고 각 라벨을 최대한 활용할 수 있는 효과적이고 유연한 지정 모델을 개발합니다. 셋째, 통합 프레임워크 덕분에 대규모 다양성 라벨로부터 시간적 지정 사전학습(pretraining)을 수행할 수 있으며, 이를 통해 더 강력한 지정 능력을 개발할 수 있습니다. 예를 들어, 제로샷(zero-shot) 지정이 가능해집니다.세 가지 태스크(순간 검색, 하이라이트 감지 및 비디오 요약)와 일곱 개의 데이터셋(QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum 및 QFVS)에 걸친 광범위한 실험 결과가 제안된 프레임워크의 효과성과 유연성을 입증하였습니다. 코드는 https://github.com/showlab/UniVTG에서 제공됩니다.

UniVTG: 통합된 비디오-언어 시간적 정렬을 향하여 | 최신 연구 논문 | HyperAI초신경