7일 전

VLM: 비디오 이해를 위한 작업 독립형 비디오-언어 모델 사전 훈련

Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer
VLM: 비디오 이해를 위한 작업 독립형 비디오-언어 모델 사전 훈련
초록

다양한 최종 작업에 대해 비디오 또는 텍스트 입력, 또는 둘 다를 수용할 수 있는 간소화되고 작업에 종속되지 않는 다중모달 사전학습 방법을 제안한다. 기존의 사전학습 방법은 단일 다중모달 인코더를 채택함으로써 두 모달리티 모두를 필요로 하여 검색형 최종 작업에 한정되거나, 두 개의 단모달 인코더를 사용하는 더 복잡한 다중작업 학습 방식을 통해 조기 다중모달 융합을 제한한다. 본 연구에서는 모달리티 간의 보다 우수한 혼합을 가능하게 하는 새로운 사전학습 마스킹 기법을 제안한다(예: 텍스트에 대한 마스크를 강제하여 가장 가까운 비디오 임베딩을 예측하게 함). 동시에 모달리티 간의 분리성도 유지한다(예: 일부 경우에 전체 입력을 사용하지 않고도 단모달 예측이 필요함). 실험 결과는 이전의 모든 방법보다 더 넓은 범위의 작업에서 뛰어난 성능을 보였으며, 종종 작업에 특화된 사전학습 방법을 초월하였다. 코드는 https://github.com/pytorch/fairseq/tree/main/examples/MMPT 에 공개되어 있다.