LanguageBind: 언어 기반 의미 정렬을 통한 N-모달리티로의 비디오-언어 사전학습 확장

비디오-언어(VL) 사전학습은 다수의 하류 작업에서 뚜렷한 개선을 이루어냈습니다. 그러나 현재의 VL 사전학습 프레임워크는 시각과 언어를 넘어서 여러 모달(N개의 모달, N>=3)로 확장하기 어려운 문제를 가지고 있습니다. 이를 해결하기 위해 우리는 언어를 다른 모달 간의 연결고리로 사용하는 LanguageBind를 제안합니다. 이는 언어 모달이 잘 연구되어 있고 풍부한 의미론을 포함하고 있기 때문입니다. 구체적으로, VL 사전학습으로 얻은 언어 인코더를 고정시키고, 대조 학습(contrastive learning)을 통해 다른 모달에 대한 인코더들을 훈련시킵니다. 그 결과 모든 모달이 공유된 특성 공간으로 매핑되며, 다중모달 의미 정렬(multi-modal semantic alignment)이 실현됩니다. LanguageBind는 VL 모달을 N개의 모달로 확장할 수 있도록 보장하지만, 동시에 언어 중심의 정렬 데이터 쌍을 갖춘 고품질 데이터셋도 필요합니다. 따라서 우리는 비디오, 적외선, 깊이, 오디오 및 해당하는 언어를 포함하는 VIDAL-10M을 제안합니다.우리의 VIDAL-10M에서는 모든 비디오는 완전한 의미론을 가진 짧은 비디오 플랫폼에서 추출되었으며, 긴 비디오에서 잘라낸 부분이 아닌 전체적인 콘텐츠입니다. 또한 모든 비디오, 깊이, 적외선, 오디오 모달은 텍스트 설명과 정렬되었습니다. LanguageBind는 비디오, 오디오, 깊이, 적외선 등 15개 벤치마크에 걸쳐 우수한 성능을 달성했습니다. 더불어 다양한 실험들은 LanguageBind가 다양한 모달 간 간접 정렬(indirect alignment)과 보완성(complementarity)을 달성하는 데 효과적이라는 증거를 제공하였습니다.코드 주소: https://github.com/PKU-YuanGroup/LanguageBind