HyperAIHyperAI
vor 2 Monaten

VAST: Ein visuell-auditorisches Untertitel-Text-Omnimodalitäts-Grundmodell und -Datensatz

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu
VAST: Ein visuell-auditorisches Untertitel-Text-Omnimodalitäts-Grundmodell und -Datensatz
Abstract

Bild und Text wurden in zeitgenössischen Video-Text-Grundmodellen vollständig untersucht, während andere Modalitäten wie Audio und Untertitel in Videos bisher nicht ausreichend Berücksichtigung gefunden haben. In dieser Arbeit etablieren wir Verbindungen zwischen multimodalen Videospuren, einschließlich Bild, Audio und Untertitel, sowie Text, indem wir ein automatisch generiertes, groß angelegtes omnimodales Video-Caption-Datenset namens VAST-27M erforschen. Speziell sammeln wir zunächst 27 Millionen offene Videoclips und trainieren getrennt einen Bild- und einen Audio-Captioner zur Erstellung von Bild- und Audio-Beschreibungen. Anschließend verwenden wir ein vorbereitetes Großsprachmodell (Large Language Model, LLM), um die generierten Beschreibungen zusammen mit den Untertiteln und Anweisungshinweisen zu integrieren, um omnimodale Captions zu erstellen. Auf Basis des vorgeschlagenen VAST-27M-Datensets trainieren wir ein omnimodales Video-Text-Grundmodell namens VAST, das in der Lage ist, Bild-, Audio- und Untertitelmodalitäten aus Videos wahrzunehmen und zu verarbeiten, und verschiedene Aufgaben einschließlich Vision-Text-, Audio-Text- und multimodal-video-text-basierte Aufgaben (Retrieval, Captioning und QA) besser zu unterstützen. Umfangreiche Experimente wurden durchgeführt, um die Effektivität unseres vorgeschlagenen VAST-27M-Korpus und des VAST-Groundmodells zu demonstrieren. VAST erzielt 22 neue Stand-von-die-Kunst-Ergebnisse auf verschiedenen cross-modalen Benchmarks. Der Code, das Modell und das Datenset werden unter https://github.com/TXH-mercury/VAST veröffentlicht.