7일 전

HERO: 비디오+언어 옴니-대표성 사전학습을 위한 계층적 인코더

Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, Jingjing Liu
HERO: 비디오+언어 옴니-대표성 사전학습을 위한 계층적 인코더
초록

우리는 대규모 비디오+언어 종합 표현 학습을 위한 새로운 프레임워크인 HERO를 제안한다. HERO는 계층적 구조를 통해 다중모달 입력을 인코딩하며, 비디오 프레임의 국소적 맥락은 다중모달 융합을 통해 크로스모달 트랜스포머(Cross-modal Transformer)를 통해, 전반적인 비디오 맥락은 타임스탬프 트랜스포머(Temporal Transformer)를 통해 포착한다. 표준적인 마스킹 언어 모델링(Masked Language Modeling, MLM) 및 마스킹 프레임 모델링(Masked Frame Modeling, MFM) 목표 외에도, 두 가지 새로운 사전학습 작업을 설계하였다. 첫째, 비디오-자막 매칭(Video-Subtitle Matching, VSM) 작업에서는 모델이 전반적이고 국소적인 시간적 정렬을 동시에 예측하도록 한다. 둘째, 프레임 순서 모델링(Frame Order Modeling, FOM) 작업에서는 섞인 비디오 프레임들의 올바른 순서를 예측하도록 한다. HERO는 HowTo100M 및 대규모 TV 데이터셋을 공동으로 학습하여, 다수의 캐릭터가 참여하는 복잡한 사회적 동작에 대한 깊이 있는 이해를 얻는다. 포괄적인 실험을 통해 HERO는 텍스트 기반 비디오/비디오 순간 검색, 비디오 질의응답(QA), 비디오-언어 추론, 비디오 캡셔닝 등 다양한 도메인의 여러 벤치마크에서 새로운 최고 성능(SOTA)을 달성함을 입증하였다. 또한, 다양한 비디오 콘텐츠와 다중모달리티에서 수집한 데이터를 바탕으로, 비디오 QA와 검색을 위한 두 가지 새로운 도전적인 벤치마크인 How2QA와 How2R을 제안한다.

HERO: 비디오+언어 옴니-대표성 사전학습을 위한 계층적 인코더 | 최신 연구 논문 | HyperAI초신경