8일 전

UniVL: 다중모달 이해 및 생성을 위한 통합 비디오 및 언어 사전학습 모델

Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Jason Li, Taroon Bharti, Ming Zhou
UniVL: 다중모달 이해 및 생성을 위한 통합 비디오 및 언어 사전학습 모델
초록

최근 자연어처리(NLP) 및 이미지-언어 태스크에서의 사전 학습 기법이 성공을 거두면서, 영상-언어 태스크를 위한 사전 학습 연구들이 점차 발전하고 있다. 그러나 기존의 대부분의 다중모달 모델들은 이해(understanding) 태스크를 위한 사전 학습에 집중되어 있어, 생성(generation) 태스크에 적용할 경우 사전 학습과 미세 조정(fine-tuning) 간의 불일치 문제가 발생한다. 본 논문은 다중모달 이해와 생성을 동시에 지원하는 통합형 영상-언어 사전 학습 모델인 UniVL을 제안한다. UniVL은 두 개의 단일 모달 인코더, 크로스 인코더, 그리고 트랜스포머 기반 디코더로 구성된 네 가지 구성 요소를 포함한다. 각 구성 요소를 학습하기 위해 영상-언어 공동 학습, 조건부 마스킹 언어 모델(CMLM), 조건부 마스킹 프레임 모델(CMFM), 영상-언어 정렬, 언어 재구성의 다섯 가지 목적 함수를 설계하였다. 또한 사전 학습 과정의 효율성을 높이기 위해 단계별 사전 학습(StagedP)과 개선된 영상 표현(EnhancedV)이라는 두 가지 사전 학습 전략을 제안하였다. 본 모델은 대규모 교육 영상 데이터셋인 HowTo100M을 기반으로 사전 학습을 수행하였으며, 실험 결과 UniVL이 강력한 영상-언어 표현을 학습할 수 있음을 입증하였고, 다섯 가지 하류 태스크에서 최신 기준(SOTA) 성능을 달성하였다.

UniVL: 다중모달 이해 및 생성을 위한 통합 비디오 및 언어 사전학습 모델 | 최신 연구 논문 | HyperAI초신경