HiTeA: 계층적 시계열 인지 영상-언어 사전 학습

비디오-언어 사전 학습은 다양한 하류 비디오-언어 작업의 성능을 크게 향상시켰다. 그러나 이전의 대부분의 방법들은 비디오-언어 사전 학습에 대해 이미지-언어 사전 학습 패러다임을 그대로 도입하거나 단순히 적응시키는 방식을 채택하여, 비디오의 고유한 특성인 시간적 특성(시계열성)을 충분히 활용하지 못했다. 본 논문에서는 비디오의 시간적 특성을 효과적으로 반영하기 위해 계층적 시간 인지형 비디오-언어 사전 학습 프레임워크인 HiTeA를 제안한다. HiTeA는 순간과 텍스트 간의 다모달 정렬 및 비디오-텍스트 쌍의 시간적 관계를 모델링하기 위한 두 가지 새로운 사전 학습 작업을 포함한다. 구체적으로, 비디오 내에서 순간을 탐색하는 다모달 순간 탐색 작업을 제안하여 세부적인 비디오 순간 표현을 생성한다. 또한, 다모달 시간적 관계 탐색 작업을 통해 다양한 시간 해상도에서 비디오-텍스트 쌍을 전반적으로 정렬함으로써 내재된 시간적 관계를 효과적으로 포착한다. 더불어, 데이터셋 및 비디오-언어 사전 학습 모델의 시간적 의존성 평가를 위해 셔플링 테스트를 도입하였다. 제안한 HiTeA는 15개의 대표적인 비디오-언어 이해 및 생성 작업에서 최신 기술(SOTA) 성능을 달성하였으며, 특히 시간 지향 데이터셋(SSv2-Template 및 SSv2-Label)에서 각각 8.6%, 11.1%의 성능 향상을 기록하였다. 또한, 제로샷(zero-shot) 전이 방식으로 하류 작업에 직접 적용되었을 때도 뛰어난 일반화 능력을 보여주었다. 모델 및 데모는 ModelScope에서 제공될 예정이다.