일반 영상 인식을 위한 언어-이미지 사전 학습 모델의 확장

대조적 언어-이미지 사전학습은 웹 규모의 데이터로부터 시각-텍스트 공동 표현을 학습하는 데 큰 성공을 거두었으며, 다양한 이미지 작업에 대해 놀라운 '제로샷(Zero-shot)' 일반화 능력을 보여주었다. 그러나 이러한 새로운 언어-이미지 사전학습 방법을 영상 분야로 효과적으로 확장하는 방법은 여전히 해결되지 않은 과제이다. 본 연구에서는 새로운 모델을 처음부터 사전학습하는 대신, 기존 사전학습된 언어-이미지 모델을 직접 영상 인식에 적응시키는 간단하면서도 효과적인 접근법을 제안한다. 구체적으로, 시간 차원에 따라 프레임 간의 장거리 종속성을 효과적으로 포착하기 위해, 프레임 간 정보를 명시적으로 교환하는 크로스-프레임 주의(attention) 메커니즘을 제안한다. 이 모듈은 가볍고 기존의 사전학습된 언어-이미지 모델에 원활하게 통합될 수 있다. 또한 영상 콘텐츠 정보를 활용하여 구분력 있는 텍스트 프롬프트를 생성하는 영상 전용 프롬프팅 전략을 제안한다. 광범위한 실험을 통해 제안한 방법이 효과적임을 입증하였으며, 다양한 영상 인식 시나리오에 일반화 가능함을 확인하였다. 특히 완전히 감독된 환경에서, Kinetics-400 데이터셋에서 상위 1위 정확도(Top-1 accuracy)로 87.1%를 달성하였으며, Swin-L 및 ViViT-H 대비 12배 적은 FLOPs를 사용하였다. 제로샷 실험에서는 두 가지 대표적인 평가 프로토콜에서 현재 최고 성능의 방법 대비 각각 +7.6%, +14.9%의 상위 1위 정확도 향상을 달성하였다. 소량 학습(few-shot) 환경에서는 레이블링된 데이터가 극도로 제한된 상황에서도 이전 최고 성능 방법 대비 각각 +32.1%, +23.1%의 성능 향상을 보였다. 코드 및 모델은 https://aka.ms/X-CLIP 에서 제공된다.