17일 전

EgoVLPv2: 백본 내에서 융합을 통한 주관적 비디오-언어 사전학습

Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang
EgoVLPv2: 백본 내에서 융합을 통한 주관적 비디오-언어 사전학습
초록

비디오-언어 사전학습(VLP)은 다양한 시각 및 언어 작업으로의 일반화 능력 덕분에 점점 더 중요해지고 있다. 그러나 기존의 자기중심형(VLP) 프레임워크는 별도의 비디오 및 언어 인코더를 사용하며, 태스크에 특화된 다모달 정보를 미세조정(fine-tuning) 단계에서만 학습하기 때문에 통합 시스템의 발전을 제한하고 있다. 본 연구에서는 비디오 및 언어 백본 내에 다모달 융합을 직접 통합함으로써 이전 세대에 비해 획기적인 개선을 이룬 자기중심형 비디오-언어 사전학습의 두 번째 세대인 EgoVLPv2를 제안한다. EgoVLPv2는 사전학습 단계에서 강력한 비디오-텍스트 표현을 학습하며, 다양한 하류 작업을 유연하고 효율적으로 지원하기 위해 다모달 어텐션 모듈을 재사용함으로써 미세조정 비용을 감소시킨다. 또한, 본 연구에서 제안하는 백본 내 융합 전략은 추가적인 융합 전용 레이어를 쌓는 방식보다 더 가볍고 계산 효율성이 높다. 다양한 시각-언어(VL) 작업에 대한 광범위한 실험을 통해 EgoVLPv2가 모든 하류 태스크에서 강력한 기준 모델 대비 일관된 최고 수준의 성능을 달성함으로써 그 효과를 입증하였다. 본 연구의 프로젝트 페이지는 https://shramanpramanick.github.io/EgoVLPv2/ 에서 확인할 수 있다.

EgoVLPv2: 백본 내에서 융합을 통한 주관적 비디오-언어 사전학습 | 최신 연구 논문 | HyperAI초신경