사전 훈련된 시각-언어 모델을 이용한 비디오 인식을 위한 양방향 교차 모달 지식 탐색

대규모 이미지-텍스트 쌍으로 사전 학습된 시각-언어 모델(VLMs)은 다양한 시각적 작업에서 뛰어난 전이 능력을 보여주었습니다. 이러한 강력한 VLMs의 지식을 전이하는 것은 효과적인 비디오 인식 모델을 구축하기 위한 유망한 방향입니다. 그러나 이 분야에서의 현재 연구는 아직 제한적입니다. 우리는 사전 학습된 VLMs의 가장 큰 가치가 시각적 영역과 텍스트 영역 사이의 다리를 구축하는 데 있다고 믿습니다. 본 논문에서는 교차 모달 다리를 활용하여 양방향 지식을 탐구하는 새로운 프레임워크인 BIKE를 제안합니다.i) 비디오 속성 연관 메커니즘을 도입하여, 비디오-텍스트 지식을 활용해 비디오 인식을 보완할 수 있는 텍스트 보조 속성을 생성합니다.ii) 또한, 텍스트-비디오 전문성을 이용하여 매개변수 없이 시간적 주요성을 포착하는 시간적 개념 스포팅 메커니즘을 제시합니다. 이로 인해 비디오 표현이 향상됩니다.Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet 및 Charades 등 여섯 개의 대중적인 비디오 데이터셋에 대한 광범위한 연구 결과, 우리의 방법은 일반적인 인식, 제로샷 인식, 소수 샷 인식 등의 다양한 인식 시나리오에서 최고 수준의 성능을 달성했습니다. 우리의 최고 모델은 공개된 CLIP 모델을 사용하여 어려운 Kinetics-400 데이터셋에서 88.6%의 정확도를 기록하며 최고 수준의 성능을 보였습니다. 코드는 https://github.com/whwu95/BIKE 에서 확인할 수 있습니다.