7일 전

사전 훈련된 대조 모델의 다중 채널 비디오-언어 검색을 위한 빠른 적응 방향

Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang
사전 훈련된 대조 모델의 다중 채널 비디오-언어 검색을 위한 빠른 적응 방향
초록

다중 채널 영상-언어 검색은 영상과 질문, 영상과 음성과 같은 다양한 채널에서 정보를 이해하여 영상과 텍스트 응답 또는 쿼리를 정확히 연결할 수 있어야 한다. 다행히도, 최근 컨트라스티브 다중모달 모델은 이미지/영상과 텍스트 간의 엔티티를 효과적으로 정렬하는 데 뛰어난 성능을 보여주고 있으며, 예를 들어 CLIP이 그 사례이다. 또한 최근에는 강력한 구분 능력을 갖춘 문장 임베딩을 생성할 수 있는 특성 덕분에, SimCSE와 같은 텍스트 컨트라스티브 모델이 널리 연구되고 있다. 그러나 제한된 데이터와 자원 환경에서 이러한 두 가지 모델 방향을 다중 채널 영상-언어 검색에 빠르게 적응시키는 명확한 방법은 아직 존재하지 않는다. 본 논문에서는 영상 표현 방식과 영상-텍스트 정보 융합 방식이라는 두 가지 축을 기반으로 체계적인 모델 설계 공간을 제시한다. 최근 기법들을 분류한 기반으로, 영상을 연속적인 특징 벡터 또는 이산적인 텍스트 토큰으로 표현하는 방법을 검토하였으며, 융합 방법으로는 다중모달 트랜스포머 또는 사전 훈련된 컨트라스티브 텍스트 모델을 탐구하였다. 우리는 이 네 가지 조합을 다섯 개의 영상-언어 데이터셋에서 광범위하게 평가하였다. 놀랍게도, 이산적인 텍스트 토큰과 사전 훈련된 컨트라스티브 텍스트 모델의 조합이 가장 뛰어난 성능을 보였으며, 수백만 개의 영상-텍스트 데이터에 대한 추가 훈련 없이도 iVQA 및 How2QA 데이터셋에서 최신 기술(SOTA)을 초월하는 결과를 달성하였다. 추가 분석 결과, 영상을 텍스트 토큰으로 표현함으로써 핵심 시각 정보를 효과적으로 포착할 수 있으며, 컨트라스티브 사전 훈련을 거친 텍스트 모델은 이미 텍스트와 자연스럽게 정렬되어 있어 검색 성능이 뛰어나기 때문이다. 본 연구의 모든 실험적 분석은 저비용 및 업그레이드 가능한 다중모달 지능에 대한 미래 연구를 위한 견고한 기반을 마련하였다.

사전 훈련된 대조 모델의 다중 채널 비디오-언어 검색을 위한 빠른 적응 방향 | 최신 연구 논문 | HyperAI초신경