MuLTI: 텍스트 유도 다중웨이 샘플러와 다중 선택 모델링을 통한 효율적인 비디오-언어 이해

비디오-언어 이해는 영상 질의 응답, 텍스트-영상 검색, 다중 레이블 분류 등 산업 분야에서 다양한 응용이 가능하다. 기존의 비디오-언어 이해 방법들은 일반적으로 고성능의 다중 모달 인코더와 특징 융합 모듈을 사용하여 높은 계산 비용을 수반한다. 특히 산업 응용에서 흔히 발생하는 밀도 높은 영상 프레임 또는 긴 텍스트 처리에 어려움을 겪는다. 본 논문에서는 효율적이고 정확도가 높은 비디오-언어 이해 모델인 MuLTI를 제안한다. MuLTI는 효율적인 특징 융합과 하류 작업에 대한 빠른 적응을 가능하게 한다. 구체적으로, 적응형 풀링 잔차 매핑(adaptive-pooling residual mapping)과 자기주의(self-attention) 모듈을 기반으로 한 텍스트 유도 다중 경로 샘플러(Text-Guided MultiWay-Sampler)를 설계하여 긴 시퀀스를 샘플링하고 다중 모달 특징을 융합함으로써 계산 비용을 감소시키며, 이전 샘플러로 인한 성능 저하 문제를 해결한다. 이를 통해 MuLTI는 제한된 계산 자원에서도 더 긴 시퀀스를 처리할 수 있다. 또한, 영상 질의 응답에서의 사전 훈련 작업 부족 문제를 보완하고 모델 성능을 더욱 향상시키기 위해 새로운 사전 훈련 작업인 다중 선택 모델링(Multiple Choice Modeling)을 제안한다. 이 작업은 사전 훈련과 하류 작업 간의 격차를 메우며, 영상과 텍스트 특징 간의 정렬 능력을 향상시킨다. 효율적인 특징 융합 모듈과 새로운 사전 훈련 작업의 장점을 활용함으로써 MuLTI는 여러 데이터셋에서 최신 기준(SOTA) 성능을 달성하였다. 코드 및 사전 훈련 모델은 공개될 예정이다.