vor 7 Tagen

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu

Abstract

Aufgrund der begrenzten Skalierung und Qualität von Video-Text-Trainingskorpora verwenden die meisten Vision-Sprache-Grundmodelle Bild-Text-Datensätze für das Vortrainieren und konzentrieren sich primär auf die Modellierung visueller semantischer Repräsentationen, während sie zeitliche semantische Repräsentationen und Korrelationen vernachlässigen. Um dieses Problem anzugehen, schlagen wir COSA (COncatenated SAmple) vor – ein auf Bild-Text-Korpora vortrainiertes Vision-Sprache-Grundmodell. COSA modelliert visuelle Inhalte und ereignisbasierte zeitliche Hinweise gemeinsam, wobei ausschließlich Bild-Text-Korpora verwendet werden. Dies erreichen wir durch die sequenzielle Verkettung mehrerer Bild-Text-Paare als Eingaben für das Vortrainieren. Diese Transformation wandelt bestehende Bild-Text-Korpora effektiv in ein pseudo-langformiges Video-Paragraph-Korpus um, was reichere Szenenveränderungen und eine explizite Korrespondenz zwischen Ereignisbeschreibungen ermöglicht. Umfangreiche Experimente zeigen, dass COSA die Leistung in einer Vielzahl von nachgeschalteten Aufgaben konstant verbessert, darunter Aufgaben mit langen und kurzen Videos sowie Bild-Text-Aufgaben wie Retrieval, Captioning und Fragebeantwortung. Insbesondere erreicht COSA state-of-the-art-Ergebnisse auf mehreren anspruchsvollen Benchmark-Datensätzen. Der Quellcode und die Modelle sind unter https://github.com/TXH-mercury/COSA verfügbar.