한 달 전

VideoBERT: 비디오와 언어 표현 학습을 위한 연합 모델

Chen Sun; Austin Myers; Carl Vondrick; Kevin Murphy; Cordelia Schmid
VideoBERT: 비디오와 언어 표현 학습을 위한 연합 모델
초록

자기 감독 학습은 YouTube와 같은 플랫폼에서 풍부하게 제공되는 라벨이 없는 데이터를 활용하기 위해 점점 더 중요한 역할을 하고 있습니다. 기존의 대부분 접근 방식이 저수준 표현을 학습하는 반면, 우리는 명시적인 감독 없이 고수준 특징을 학습하기 위한 시각-언어 결합 모델을 제안합니다. 특히, 언어 모델링에서 최근 성공한 사례에 영감을 받아, 비디오 데이터의 벡터 양자화와 상용 음성 인식 결과로부터 각각 추출된 시각적 및 언어적 토큰 시퀀스의 양방향 결합 분포를 학습하기 위해 BERT 모델을 확장하여 사용합니다. 우리는 VideoBERT를 행동 분류 및 비디오 캡셔닝 등 다양한 작업에 적용하고, 이를 통해 개방형 어휘 분류에 직접적으로 적용할 수 있음을 보여주며, 많은 양의 학습 데이터와 다중 모달 정보가 성능에 결정적이란 사실을 확인합니다. 또한, 비디오 캡셔닝에서 최신 연구 결과를 능가하였으며, 정량적 결과는 모델이 고수준 의미론적 특징을 학습한다는 것을 검증하였습니다.

VideoBERT: 비디오와 언어 표현 학습을 위한 연합 모델 | 최신 연구 논문 | HyperAI초신경