19일 전

ActionCLIP: 비디오 동작 인식을 위한 새로운 패러다임

Mengmeng Wang, Jiazheng Xing, Yong Liu
ActionCLIP: 비디오 동작 인식을 위한 새로운 패러다임
초록

영상 행동 인식의 전통적인 접근 방식은 신경망 모델이 고정된 사전 정의된 카테고리 집합을 예측하도록 훈련시키는 1-of-N 다수결 투표 작업을 수행하도록 요구한다. 이러한 방식은 새로운 데이터셋에서 미리 보지 못한 개념에 대해 전이 가능성(transferability)이 제한된다. 본 논문에서는 레이블 텍스트의 의미 정보에 주목함으로써, 단순히 이를 숫자로 매핑하는 것에 그치지 않고, 행동 인식에 대한 새로운 관점을 제시한다. 구체적으로, 다모달 학습 프레임워크 내에서 영상-텍스트 매칭 문제로 이 작업을 모델링함으로써, 더 풍부한 의미적 언어 지도 정보를 통해 영상 표현을 강화하고, 추가적인 레이블 데이터나 파라미터 조정 없이도 제로샷(Zero-shot) 행동 인식이 가능하게 한다. 더불어, 레이블 텍스트의 부족 문제를 해결하고 막대한 웹 데이터를 효과적으로 활용하기 위해, 이 다모달 학습 프레임워크 기반의 새로운 패러다임을 제안한다. 이 패러다임을 ‘사전 훈련, 프롬프트 설계, 미세 조정’(pre-train, prompt and fine-tune)이라고 명명한다. 이 패러다임은 먼저 방대한 웹 이미지-텍스트 또는 영상-텍스트 데이터를 기반으로 강력한 표현을 사전 훈련을 통해 학습한다. 이후 프롬프트 엔지니어링을 통해 행동 인식 작업을 사전 훈련 문제에 더 가깝게 만든다. 마지막으로, 타깃 데이터셋에서 엔드투엔드로 미세 조정을 수행함으로써 뛰어난 성능을 달성한다. 본 연구는 이 새로운 패러다임의 구현 사례로 ActionCLIP을 제시하며, 이는 우수하고 유연한 제로샷/프리샷(Zero-shot/Few-shot) 전이 능력을 갖추고 있으며, 일반적인 행동 인식 작업에서 최고 수준의 성능을 기록한다. 특히, 백본으로 ViT-B/16을 사용했을 때 Kinetics-400 데이터셋에서 83.8%의 top-1 정확도를 달성하였다. 코드는 https://github.com/sallymmx/ActionCLIP.git 에서 공개되어 있다.