17일 전

비디오와 이미지를 활용한 Co-training Transformer을 통한 동작 인식 향상

Bowen Zhang, Jiahui Yu, Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang, Fei Sha
비디오와 이미지를 활용한 Co-training Transformer을 통한 동작 인식 향상
초록

행동 인식 학습에서 모델은 일반적으로 이미지 기반 객체 인식 데이터셋(예: ImageNet)을 사용해 사전 학습한 후, 비디오 데이터를 활용해 목표 행동 인식 작업에 대해 미세 조정한다. 이 접근법은 최근 트랜스포머 기반의 비디오 아키텍처와 함께 우수한 실험적 성능을 달성해왔다. 최근 많은 연구들은 행동 인식을 위한 보다 고도화된 트랜스포머 아키텍처 설계에 주력하고 있으나, 비디오 트랜스포머의 학습 방법에 대한 연구는 상대적으로 부족한 실정이다. 본 연구에서는 여러 학습 패러다임을 탐구하고 두 가지 주요 발견을 제시한다. 첫째, 다양한 비디오 데이터셋과 레이블 공간(예: Kinetics는 시각적 외형에 초점, SomethingSomething는 움직임에 초점)에서의 공동 학습을 통해 비디오 트랜스포머가 성능 향상을 얻는다. 둘째, 단일 프레임 비디오(즉, 이미지)와 함께 공동 학습을 추가로 수행함으로써 비디오 트랜스포머는 더욱 우수한 비디오 표현을 학습하게 된다. 본 연구에서는 이를 '행동 인식을 위한 비디오와 이미지의 공동 학습(Co-training Videos and Images for Action Recognition, CoVeR)'이라 명명한다. 특히 TimeSFormer 아키텍처 기반으로 ImageNet-21K에서 사전 학습한 경우, CoVeR는 Kinetics-400의 Top-1 정확도를 2.4%, Kinetics-600은 2.3%, SomethingSomething-v2는 2.3% 향상시켰다. 더 큰 규모의 이미지 데이터셋을 활용해 사전 학습한 경우, 기존 최상의 성능을 넘어서 Kinetics-400(87.2%), Kinetics-600(87.9%), Kinetics-700(79.8%), SomethingSomething-v2(70.9%), Moments-in-Time(46.1%)에서 최고 성능을 기록하였으며, 단순한 공간-시간적 비디오 트랜스포머 구조를 사용함에도 불구하고 뛰어난 결과를 달성하였다.