2달 전

이미지에서 비디오 트랜스포머로의 이중 경로 적응

Park, Jungin ; Lee, Jiyoung ; Sohn, Kwanghoon
이미지에서 비디오 트랜스포머로의 이중 경로 적응
초록

본 논문에서는 ViT와 Swin과 같은 시각 기반 모델의 뛰어난 표현 능력을 비디오 이해에 적용하기 위해 몇 개의 학습 가능한 매개변수만을 사용하여 효율적으로 전송합니다. 이전 적응 방법들은 통합된 학습 가능한 모듈을 통해 공간적 및 시간적 모델링을 동시에 고려하였지만 여전히 이미지 트랜스포머의 표현 능력을 충분히 활용하지 못하였습니다. 우리는 인기 있는 쌍방향(두 스트림) 아키텍처가 비디오 모델에서 이러한 문제를 완화할 수 있다고 주장합니다. 우리는 공간적 및 시간적 적응 경로로 분리된 새로운 쌍방향(DualPath) 적응 방법을 제안하며, 각 트랜스포머 블록에서 가벼운 병목 부착 어댑터를 사용합니다. 특히 시간적 동적 모델링을 위해 연속적인 프레임들을 격자 형태의 프레임셋으로 통합하여, 토큰 간 관계를 추론하는 시각 트랜스포머의 능력을 정확하게 모사하였습니다. 또한, 우리는 비디오 이해에서 통합된 관점으로 여러 베이스라인을 광범위하게 조사하고 DualPath와 비교하였습니다. 네 가지 행동 인식 벤치마크에서 실험 결과는 사전 학습된 이미지 트랜스포머가 DualPath를 통해 데이터 도메인을 넘어서 효과적으로 일반화될 수 있음을 증명하였습니다.

이미지에서 비디오 트랜스포머로의 이중 경로 적응 | 최신 연구 논문 | HyperAI초신경