7일 전

Clover: 통합된 비디오-언어 정렬 및 융합 모델을 향하여

Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji
Clover: 통합된 비디오-언어 정렬 및 융합 모델을 향하여
초록

다양한 비디오 이해 작업(예: 텍스트-비디오 검색, 비디오 질의 응답)을 해결하기 위한 보편적인 비디오-언어 모델 구축은 머신러닝 분야에서 여전히 해결되지 않은 도전 과제이다. 이러한 목표를 달성하기 위해 최근 대부분의 연구들은 단모달 및 교차모달 특징 인코더를 계층적으로 구성하고 쌍별 대조적 사전 훈련 태스크를 통해 모델을 학습한다. 비록 높은 일반화 능력을 제공하지만, 이러한 모델들은 효율성과 성능 사이에서 타협을 피할 수 없다. 대부분의 경우, 다양한 하류 작업에 맞춰 서로 다른 아키텍처를 사용해야 한다. 우리는 이 문제가 쌍별 훈련 방식이 서로 다른 모달리티의 특징을 효과적으로 \emph{정렬}하고 \emph{융합}하지 못하기 때문임을 발견하였다. 이를 해결하기 위해 우리는 \textbf{Clover}\textemdash 즉, 상관된 비디오-언어 사전 훈련 방법\textemdash 를 제안한다. 이는 성능이나 효율성의 희생 없이 다수의 비디오 이해 작업을 해결할 수 있는 보편적인 비디오-언어 모델을 구축하는 데 기여한다. Clover는 새로운 삼모달 정렬 사전 훈련 태스크를 통해 교차모달 특징의 정렬과 융합을 향상시킨다. 더불어, 의미적 마스킹 샘플로부터의 학습을 도입하고, 새로운 쌍별 랭킹 손실을 제안함으로써 삼모달 정렬을 더욱 강화한다. Clover는 영상 검색(영어-비디오, 비디오-영어, 다국어 검색)의 제로샷 및 피팅 조건에서 세 가지 작업과, 비디오 질의 응답 작업 8개를 포함한 다양한 하류 작업에서 새로운 최고 성능을 달성하였다. 코드와 사전 훈련된 모델은 \url{https://github.com/LeeYN-43/Clover}에서 공개될 예정이다.