HyperAIHyperAI

Command Palette

Search for a command to run...

Zur schnellen Anpassung vortrainierter kontrastiver Modelle für die Mehrkanal-Video-Sprache-Abfrage

Xudong Lin Simran Tiwari Shiyuan Huang Manling Li Mike Zheng Shou Heng Ji Shih-Fu Chang

Zusammenfassung

Die Mehrkanal-Video-Sprache-Abfrage erfordert Modelle, die Informationen aus verschiedenen Kanälen (z. B. Video + Frage, Video + Sprache) verstehen, um ein Video korrekt mit einer textuellen Antwort oder Anfrage zu verknüpfen. Glücklicherweise haben kontrastive multimodale Modelle sich als äußerst effektiv erwiesen, um Entitäten in Bildern/Videos und Text miteinander auszurichten, beispielsweise CLIP; kontrastive Textmodelle wurden in jüngster Zeit intensiv erforscht, da sie eine starke Fähigkeit zur Erzeugung diskriminativer Satz-Embeddings aufweisen, beispielsweise SimCSE. Es gibt jedoch bisher keinen klaren Ansatz, diese beiden Ansätze schnell und effizient auf die Mehrkanal-Video-Sprache-Abfrage mit begrenzten Daten und Ressourcen zu übertragen. In diesem Artikel identifizieren wir einen begründeten Modellentwurfsraum mit zwei Dimensionen: Wie werden Videos repräsentiert, und wie werden Video- und Textinformationen fusioniert? Basierend auf einer Kategorisierung aktueller Methoden untersuchen wir die Möglichkeiten, Videos mittels kontinuierlicher Merkmalsvektoren oder diskreter Text-Token darzustellen; hinsichtlich der Fusionsmethode erforschen wir die Verwendung eines multimodalen Transformers oder eines vortrainierten kontrastiven Textmodells. Wir evaluieren die vier Kombinationen umfassend auf fünf Video-Sprache-Datensätzen. Überraschenderweise stellen wir fest, dass die Kombination aus diskreten Text-Token und einem vortrainierten kontrastiven Textmodell die beste Leistung erzielt – sie übertrifft sogar den Stand der Technik auf den Datensätzen iVQA und How2QA, ohne zusätzliche Trainingsdaten im Umfang von Millionen von Video-Text-Paaren zu benötigen. Eine detaillierte Analyse zeigt, dass dies darauf zurückzuführen ist, dass die Darstellung von Videos als Text-Token die wesentlichen visuellen Informationen erfasst, und dass Text-Token sich auf natürliche Weise mit Textmodellen ausrichten, die nach dem kontrastiven Vortraining starke Retrieval-Fähigkeiten besitzen. Alle empirischen Analysen legen eine solide Grundlage für zukünftige Forschung zu kostengünstiger und erweiterbarer multimodaler Intelligenz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp