vor 7 Tagen

CLIP trifft auf Videozusammenfassung: Konzeptbewusste Darstellungslernverfahren sind von Bedeutung

Bang Yang, Tong Zhang, Yuexian Zou

Abstract

Für die Video-Beschriftung (Video Captioning) hat sich das Paradigma „Pre-Training und Fine-Tuning“ etabliert, bei dem üblicherweise eine ImageNet-Prätrainierung (INP) zur Kodierung des Videoinhalts genutzt wird, gefolgt von einem task-orientierten Netzwerk, das von Grund auf fine-tuned wird, um die Generierung von Beschriftungen zu bewältigen. Diese Arbeit untersucht erstmals die Auswirkungen des kürzlich vorgeschlagenen CLIP (Contrastive Language-Image Pre-training) auf die Video-Beschriftung. Durch eine empirische Studie von INP im Vergleich zu CLIP identifizieren wir potenzielle Schwächen der INP und analysieren die entscheidenden Faktoren für die präzise Generierung von Beschreibungen. Die Ergebnisse zeigen, dass Modelle auf Basis von INP Schwierigkeiten haben, die Semantik von Konzepten korrekt zu erfassen und stark auf irrelevanten Hintergrundinformationen reagieren. Im Gegensatz dazu verbessert das CLIP-basierte Modell die Qualität der Beschriftungen erheblich und unterstreicht die Bedeutung der konzeptbewussten Repräsentationslernung. Auf Basis dieser Erkenntnisse schlagen wir Dual Concept Detection (DCD) vor, eine zusätzliche Aufgabe, die es dem Modell ermöglicht, während des Trainings konzeptuelle Wissensinhalte einzubinden. DCD erfordert vom Beschriftungsmodell, die Korrespondenz zwischen Videoinhalten und Konzepten sowie die gemeinsame Auftretensbeziehungen zwischen Konzepten zu erlernen. Experimente auf den Datensätzen MSR-VTT und VATEX belegen die Wirksamkeit von DCD, und die Visualisierungsergebnisse verdeutlichen zudem die Notwendigkeit, konzeptbewusste Repräsentationen zu lernen.