17일 전

다양한 시공간 대비 학습을 통한 장문 비디오-언어 사전 학습

Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu
다양한 시공간 대비 학습을 통한 장문 비디오-언어 사전 학습
초록

대규모 비디오-언어 사전학습은 비디오-언어 이해 작업에서 상당한 성능 향상을 보여왔다. 기존의 비디오-언어 사전학습 연구는 주로 30초 이내의 단편 영상과 문장에 초점을 맞추고 있어, 장편 영상-언어 사전학습은 거의 탐색되지 않은 분야였다. 장편 영상과 언어에서 직접 표현을 학습하는 것은 다양한 장편 영상-언어 이해 작업에 유리할 수 있으나, 장거리 관계 모델링의 어려움과 더 많은 프레임으로 인한 높은 계산 부담으로 인해 도전 과제가 있다. 본 논문에서는 기존 공개 데이터셋에서 구성한 대규모 장편 영상과 단락 데이터셋을 기반으로, 장편 영상-언어 사전학습 모델인 LF-VILA(Long-Form VIdeo-LAnguage pre-training model)를 제안한다. 효율적인 엔드투엔드 방식으로 풍부한 시계적 동적 특성을 효과적으로 포착하고, 영상과 언어 간의 정확한 정렬을 달성하기 위해 LF-VILA 모델에 두 가지 새로운 설계를 도입한다. 먼저, 장편 영상과 단락 간의 미세한 정렬을 유도함으로써 다양한 모달 간의 시계적 관계를 학습하는 다모달 시계적 대비(Multimodal Temporal Contrastive, MTC) 손실을 제안한다. 두 번째로, Transformer 내에서 장거리 의존성을 효과적으로 포착하면서도 계산 비용을 줄이는 계층적 시계적 창문 주의(Hierarchical Temporal Window Attention, HTWA) 메커니즘을 제안한다. 사전학습된 LF-VILA 모델을 장편 영상-언어 이해 작업의 7개 하류 작업(단락-영상 검색 및 장편 영상 질의응답)에 대해 미세조정한 결과, 새로운 최고 성능을 달성하였다. 특히 ActivityNet 단락-영상 검색 작업에서 16.1%의 상대적 성능 향상과 How2QA 작업에서 2.4%의 성능 향상을 기록하였다. 본 연구의 코드, 데이터셋, 사전학습 모델은 https://github.com/microsoft/XPretrain 에 공개한다.