Zur schnellen Anpassung vortrainierter kontrastiver Modelle für die Mehrkanal-Video-Sprache-Abfrage

Die Mehrkanal-Video-Sprache-Abfrage erfordert Modelle, die Informationen aus verschiedenen Kanälen (z. B. Video + Frage, Video + Sprache) verstehen, um ein Video korrekt mit einer textuellen Antwort oder Anfrage zu verknüpfen. Glücklicherweise haben kontrastive multimodale Modelle sich als äußerst effektiv erwiesen, um Entitäten in Bildern/Videos und Text miteinander auszurichten, beispielsweise CLIP; kontrastive Textmodelle wurden in jüngster Zeit intensiv erforscht, da sie eine starke Fähigkeit zur Erzeugung diskriminativer Satz-Embeddings aufweisen, beispielsweise SimCSE. Es gibt jedoch bisher keinen klaren Ansatz, diese beiden Ansätze schnell und effizient auf die Mehrkanal-Video-Sprache-Abfrage mit begrenzten Daten und Ressourcen zu übertragen. In diesem Artikel identifizieren wir einen begründeten Modellentwurfsraum mit zwei Dimensionen: Wie werden Videos repräsentiert, und wie werden Video- und Textinformationen fusioniert? Basierend auf einer Kategorisierung aktueller Methoden untersuchen wir die Möglichkeiten, Videos mittels kontinuierlicher Merkmalsvektoren oder diskreter Text-Token darzustellen; hinsichtlich der Fusionsmethode erforschen wir die Verwendung eines multimodalen Transformers oder eines vortrainierten kontrastiven Textmodells. Wir evaluieren die vier Kombinationen umfassend auf fünf Video-Sprache-Datensätzen. Überraschenderweise stellen wir fest, dass die Kombination aus diskreten Text-Token und einem vortrainierten kontrastiven Textmodell die beste Leistung erzielt – sie übertrifft sogar den Stand der Technik auf den Datensätzen iVQA und How2QA, ohne zusätzliche Trainingsdaten im Umfang von Millionen von Video-Text-Paaren zu benötigen. Eine detaillierte Analyse zeigt, dass dies darauf zurückzuführen ist, dass die Darstellung von Videos als Text-Token die wesentlichen visuellen Informationen erfasst, und dass Text-Token sich auf natürliche Weise mit Textmodellen ausrichten, die nach dem kontrastiven Vortraining starke Retrieval-Fähigkeiten besitzen. Alle empirischen Analysen legen eine solide Grundlage für zukünftige Forschung zu kostengünstiger und erweiterbarer multimodaler Intelligenz.