2달 전

CLIP의 비디오 하이라이트 검출 잠재력 활용

Han, Donghoon ; Seo, Seunghyeon ; Park, Eunhwan ; Nam, Seong-Uk ; Kwak, Nojun

초록

다중모달 및 대형 언어 모델(LLMs)은 개방 세계 지식의 활용을 혁신적으로 변화시켰으며, 다양한 과제와 응용 분야에서 새로운 가능성을 열었습니다. 이러한 영역들 중 비디오 영역은 특히 이들의 능력으로부터 많은 혜택을 받았습니다. 본 논문에서는 비디오 하이라이트 검출 과제에서 우수한 성능을 발휘하도록 설계된 HL-CLIP(Highlight-CLIP) 방법론을 제시합니다. 다중모달 인코더를 미세 조정(fine-tuning)하고 우리의 혁신적인 주요성 풀링(saliency pooling) 기술을 결합하여, 최선의 지식에 따르면 QVHighlight 벤치마크에서 하이라이트 검출 과제의 최고 수준 성능(state-of-the-art performance)을 달성하였습니다.