15일 전

분류기 재검토: 비전-언어 모델을 활용한 비디오 인식으로의 전이

Wenhao Wu, Zhun Sun, Wanli Ouyang
분류기 재검토: 비전-언어 모델을 활용한 비디오 인식으로의 전이
초록

업무에 관계없이 사전 훈련된 딥 모델로부터 하류 작업으로 지식을 전이하는 것은 컴퓨터 비전 연구에서 중요한 주제이다. 계산 능력의 증가와 함께, 대규모 모델 아키텍처와 데이터 양을 갖춘 오픈소스 비전-언어 사전 훈련 모델이 등장하고 있다. 본 연구에서는 영상 분류 작업을 위한 지식 전이에 초점을 맞추고 있다. 기존의 방법들은 시각 분류 작업에 대해 선형 분류기 헤드를 무작위로 초기화하지만, 텍스트 인코더를 하류 시각 인식 작업에 활용하는 방법은 여전히 탐색되지 않은 영역이다. 본 논문에서는 선형 분류기의 역할을 재정의하고, 사전 훈련된 모델의 다른 지식으로 분류기를 대체한다. 우리는 잘 사전 훈련된 언어 모델을 활용하여 효율적인 전이 학습을 위한 우수한 의미적 타겟을 생성한다. 실증 연구 결과, 본 방법은 모델 구조에 거의 영향을 주지 않으면서도 영상 분류의 성능과 훈련 속도 모두를 향상시킴을 확인하였다. 본 연구에서 제안하는 간단하면서도 효과적인 튜닝 패러다임은 다양한 영상 인식 시나리오—즉, 제로샷(zero-shot), 팔십샷(few-shot), 일반 인식—에서 최고 수준의 성능과 효율적인 훈련을 달성하였다. 특히, Kinetics-400 데이터셋에서 87.8%의 최고 성능을 기록하였으며, 다섯 가지 인기 있는 영상 데이터셋에서 제로샷 및 팔십샷 설정 하에서 기존 방법 대비 20~50%의 절대적인 상위 1위 정확도 향상을 달성하였다. 코드 및 모델은 https://github.com/whwu95/Text4Vis 에서 확인할 수 있다.

분류기 재검토: 비전-언어 모델을 활용한 비디오 인식으로의 전이 | 최신 연구 논문 | HyperAI초신경