2달 전

VAST: 시각-음성-자막-텍스트 옴니모달리티 기초 모델 및 데이터셋

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu
VAST: 시각-음성-자막-텍스트 옴니모달리티 기초 모델 및 데이터셋
초록

비전과 텍스트는 현대의 비디오-텍스트 기초 모델에서 충분히 탐구되었지만, 비디오 내의 오디오와 자막 등 다른 모달리티는 충분한 주목을 받지 못했습니다. 본 논문에서는 VAST-27M이라고 불리는 대규모 다중 모달리티 비디오 캡션 데이터셋을 활용하여, 비전, 오디오, 자막과 텍스트 간의 연결을 구축하는 것을 목표로 합니다. 구체적으로, 먼저 2700만 개의 오픈 도메인 비디오 클립을 수집하고, 각각 비전 캡셔너와 오디오 캡셔너를 따로 훈련시켜 비전 및 오디오 캡션을 생성합니다. 그런 다음, 사전에 학습된 대형 언어 모델(LLM)을 사용하여 생성된 캡션과 자막, 지시 프롬프트를 통합하여 다중 모달리티 캡션을 만듭니다. 제안된 VAST-27M 데이터셋을 기반으로, 비전, 오디오 및 자막 모달리티를 인식하고 처리할 수 있는 다중 모달리티 비디오-텍스트 기초 모델인 VAST를 훈련시켰습니다. 이 모델은 시각-텍스트, 음성-텍스트 및 다중 모달리티 비디오-텍스트 작업(검색, 캡션 생성 및 질문 응답) 등을 더 잘 지원할 수 있습니다. 광범위한 실험을 통해 제안된 VAST-27M 코퍼스와 VAST 기초 모델의 효과성을 입증하였습니다. VAST는 다양한 크로스모달 벤치마크에서 22개의 새로운 최신 성능(SOTA) 결과를 달성하였습니다. 코드, 모델 및 데이터셋은 https://github.com/TXH-mercury/VAST 에서 공개될 예정입니다.

VAST: 시각-음성-자막-텍스트 옴니모달리티 기초 모델 및 데이터셋 | 최신 연구 논문 | HyperAI초신경