
초록
이 논문에서는 레이블이 없는 데이터로부터 비디오-텍스트 복합 표현을 자율학습하기 위한 ActBERT를 제안한다. 먼저, 글로벌한 동작 정보를 활용하여 언어 텍스트와 지역적 영역 객체 간의 상호작용을 촉진한다. 이를 통해 쌍으로 구성된 비디오 시퀀스와 텍스트 설명에서 글로벌 및 로컬 시각적 단서를 추출하여 세부적인 시각-텍스트 관계 모델링을 가능하게 한다. 둘째, 글로벌 동작, 지역적 영역 객체, 언어적 설명이라는 세 가지 정보 소스를 인코딩하기 위해 ENtangled Transformer 블록(ENT)을 도입한다. 문맥 정보로부터 신중하게 추출한 단서를 통해 글로벌-로컬 대응 관계를 탐지함으로써, 복합 비디오-텍스트 표현이 세부적인 객체뿐 아니라 인간의 전반적 의도까지 인지하도록 강제한다. ActBERT의 일반화 능력은 텍스트-비디오 클립 검색, 비디오 캡셔닝, 비디오 질의응답, 동작 분할, 동작 단계 위치 추정 등의 하류 비디오-언어 작업에서 검증되었다. ActBERT는 기존 최고 성능 모델들을 크게 앞서며, 비디오-텍스트 표현 학습 분야에서의 우수성을 입증하였다.