VLM 보조 훈련을 활용한 동작 이해를 위한 비디오 트랜스포머 개선

비전 트랜스포머(Vision Transformers, ViTs)는 관련 시공간 영상 임베딩을 추출하는 능력 덕분에 현재 비디오 행동 이해 분야에서 가장 성능이 우수한 모델입니다. 그러나 이들의 도메인이나 데이터셋 간의 일반화 능력은 다소 제한적입니다. 반면, 비주얼 언어 모델(Visual Language Models, VLMs)은 뛰어난 일반화 성능을 보여주고 있지만, 현재로서는 영상을 처리할 수 없습니다. 따라서 행동 이해에 중요한 시공간 패턴을 추출할 수 없습니다. 본 논문에서는 ViTs와 VLMs의 보완적인 강점을 활용하는 사단계 프롬프트(Four-tiered Prompts, FTP) 프레임워크를 제안합니다. 우리는 ViTs의 강력한 시공간 표현 능력을 유지하면서 VLM 출력과 일치시켜 시각 인코딩을 더욱 포괄적이고 일반적으로 개선합니다. FTP 프레임워크는 비디오에서 인간 행동의 특정 측면에 초점을 맞춘 네 가지 특징 처리기(action category, action components, action description, context information)를 추가합니다. VLMs는 훈련 과정에서만 사용되며, 추론 시에는 최소한의 계산 비용이 발생합니다. 우리의 접근 방식은 지속적으로 최신 기술 수준의 성능을 제공하며, 예를 들어 Kinetics-400에서는 93.8%의 뛰어난 상위 1등급 정확도를 달성하였으며 Something-Something V2에서는 83.4%의 정확도를 기록하였습니다. 각각 VideoMAEv2보다 2.8%와 2.6% 높은 결과입니다.