HyperAIHyperAI

Command Palette

Search for a command to run...

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Jing Liu

Zusammenfassung

Aufgrund der begrenzten Skalierung und Qualität von Video-Text-Trainingskorpora verwenden die meisten Vision-Sprache-Grundmodelle Bild-Text-Datensätze für das Vortrainieren und konzentrieren sich primär auf die Modellierung visueller semantischer Repräsentationen, während sie zeitliche semantische Repräsentationen und Korrelationen vernachlässigen. Um dieses Problem anzugehen, schlagen wir COSA (COncatenated SAmple) vor – ein auf Bild-Text-Korpora vortrainiertes Vision-Sprache-Grundmodell. COSA modelliert visuelle Inhalte und ereignisbasierte zeitliche Hinweise gemeinsam, wobei ausschließlich Bild-Text-Korpora verwendet werden. Dies erreichen wir durch die sequenzielle Verkettung mehrerer Bild-Text-Paare als Eingaben für das Vortrainieren. Diese Transformation wandelt bestehende Bild-Text-Korpora effektiv in ein pseudo-langformiges Video-Paragraph-Korpus um, was reichere Szenenveränderungen und eine explizite Korrespondenz zwischen Ereignisbeschreibungen ermöglicht. Umfangreiche Experimente zeigen, dass COSA die Leistung in einer Vielzahl von nachgeschalteten Aufgaben konstant verbessert, darunter Aufgaben mit langen und kurzen Videos sowie Bild-Text-Aufgaben wie Retrieval, Captioning und Fragebeantwortung. Insbesondere erreicht COSA state-of-the-art-Ergebnisse auf mehreren anspruchsvollen Benchmark-Datensätzen. Der Quellcode und die Modelle sind unter https://github.com/TXH-mercury/COSA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp