엔티티 프롬프트를 활용한 비디오-언어 사전학습: 정렬과 프롬프트

비디오-언어 사전학습은 다양한 후속 작업에서 유망한 성능 향상을 보여주고 있다. 기존 대부분의 방법들은 트랜스포머 기반의 다모달 인코더를 활용하여 다모달 상호작용을 모델링하지만, 단모달 비디오 및 텍스트 특징 간의 비일치 문제를 완전히 해결하지 못하고 있다. 또한 세밀한 시각-언어 정렬을 학습하기 위해서는 일반적으로 사전에 학습된 객체 탐지기(object detector)를 통해 객체 정보를 제공해야 하는데, 이는 탐지기의 제한된 어휘량과 높은 계산 비용으로 인해 성능에 제약을 받는다.본 연구에서는 더 나은 다모달 정렬을 가능하게 하는 효율적이고 효과적인 비디오-언어 사전학습 프레임워크인 'Align and Prompt'을 제안한다. 먼저, 인스턴스 수준에서 단모달 비디오-텍스트 특징을 정렬하기 위해 비디오-텍스트 대조 손실(Video-Text Contrastive, VTC)을 도입한다. 이는 다모달 상호작용 모델링을 보다 용이하게 한다. 그 후, 세밀한 영역-엔티티 정렬을 학습하는 새로운 시각 기반 사전학습 과제인 엔티티 모델링 프롬프팅(Prompting Entity Modeling, PEM)을 제안한다. 이를 위해 먼저 엔티티 프롬프터 모듈(entity prompter module)을 도입하며, 이 모듈은 VTC 손실을 통해 엔티티 이름으로 인스턴스화된 텍스트 프롬프트와 비디오 조각 사이의 유사도를 생성하도록 학습한다. PEM 과제는 임의로 선택된 비디오 조각에 대해 엔티티 의사라벨(즉, 정규화된 유사도 점수)을 예측하도록 모델을 학습시킨다. 제안한 사전학습 모델은 텍스트-비디오 검색 및 비디오 질의응답(videoQA)에서 최신 기준(SOTA) 성능을 달성하며, 기존 방법들에 비해 상당한 성능 향상을 보였다. 본 연구의 코드와 사전학습 모델은 https://github.com/salesforce/ALPRO 에 공개되어 있다.