2달 전

직교 시간 보간을 이용한 제로샷 비디오 인식

Yan Zhu; Junbao Zhuo; Bin Ma; Jiajia Geng; Xiaoming Wei; Xiaolin Wei; Shuhui Wang
직교 시간 보간을 이용한 제로샷 비디오 인식
초록

제로샷 비디오 인식(ZSVR)은 모델 학습 과정에서 보지 못한 비디오 카테고리를 인식하는 작업을 목표로 합니다. 최근에, 대규모 이미지-텍스트 쌍으로 사전 학습된 시각-언어 모델(VLMs)이 ZSVR에 대한 뛰어난 전이 능력을 보여주었습니다. VLMs를 비디오 영역에 적용하기 위해, 기존 방법들은 종종 이미지 레벨 인코더 이후에 추가적인 시간적 학습 모듈을 사용하여 비디오 프레임 간의 시간적 관계를 학습합니다. 그러나, 미처 본 적 없는 카테고리의 비디오에서는 공간-시간 특성을 사용하는 모델이 시간적 학습 모듈을 제거하고 공간 특성만을 사용하는 모델보다 훨씬 더 나쁜 성능을 보이는 이상 현상을 관찰하였습니다. 우리는 이 현상이 비디오의 시간적 모델링이 부적절하게 이루어져서 비디오의 공간 특성이 방해받기 때문이라고 추측하였습니다. 우리의 가설을 검증하기 위해, 우리는 특성 분해(Feature Factorization)를 제안하여 비디오의 직교 시간 특성을 유지하고, 보간법(interpolation)을 사용하여 개선된 공간-시간 특성을 구성하였습니다. 적절히 개선된 공간-시간 특성을 사용하는 모델이 공간 특성만을 사용하는 모델보다 더 우수한 성능을 보였으며, 이는 ZSVR 작업에서 직교 시간 특성의 효과성을 확인하였습니다. 따라서, 훈련 중 더 나은 개선된 공간-시간 비디오 특성을 학습하도록 설계된 직교 시간 보간(Orthogonal Temporal Interpolation) 모듈을 도입하였습니다. 또한, 직교 시간 특성의 품질을 개선하기 위해 매칭 손실(Matching Loss)도 소개되었습니다. 우리는 VLMs 기반으로 직교 시간 보간과 매칭 손실을 활용한 OTI라는 이름의 ZSVR 모델을 제안하였습니다. 인기 있는 비디오 데이터셋(Kinetics-600, UCF101 및 HMDB51)에서의 ZSVR 정확도는 OTI가 이전 최신 방법보다 명확히 우수한 성능을 발휘함을 보여주었습니다.

직교 시간 보간을 이용한 제로샷 비디오 인식 | 최신 연구 논문 | HyperAI초신경