11일 전

사전 훈련된 비전 및 언어 모델을 통한 다중모달 오픈-보라티지 비디오 분류

Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui
사전 훈련된 비전 및 언어 모델을 통한 다중모달 오픈-보라티지 비디오 분류
초록

대규모 이미지-텍스트 쌍으로 사전 훈련된 시각 및 언어 모델(VLM)을 활용하는 것은 개방형 어휘 시각 인식에 대한 유망한 패러다임으로 부상하고 있다. 본 연구에서는 영상에 자연스럽게 존재하는 운동 정보와 음성 정보를 활용함으로써 이 패러다임을 확장한다. 우리는 \textbf{MOV}(Multimodal Open-Vocabulary video classification)라는 간단하면서도 효과적인 방법을 제안한다. MOV에서는 사전 훈련된 VLM의 시각 인코더를 최소한의 수정만으로 영상, 광학 흐름(optical flow), 그리고 음성 스펙트로그램을 인코딩하는 데 직접 활용한다. 또한 보완적인 다중모달 정보를 통합하기 위해 교차 모달 융합 메커니즘을 설계하였다. Kinetics-700 및 VGGSound 데이터셋에서의 실험 결과, 광학 흐름 또는 음성 모달을 도입함으로써 사전 훈련된 VLM 및 기존 방법보다 큰 성능 향상을 달성하였다. 특히 MOV는 기존 클래스에 대해 정확도를 크게 향상시키며, 새로운 클래스에 대한 일반화 능력도 뛰어나다. UCF 및 HMDB에서의 제로샷 영상 분류 벤치마크에서 MOV는 기존의 전통적인 제로샷 방법과 최근의 VLM 기반 방법을 모두 크게 앞서는 최신 기술(SOTA) 성능을 기록하였다. 코드와 모델은 공개될 예정이다.

사전 훈련된 비전 및 언어 모델을 통한 다중모달 오픈-보라티지 비디오 분류 | 최신 연구 논문 | HyperAI초신경