HyperAIHyperAI
vor 11 Tagen

Multimodale Open-Vocabulary-Videoklassifikation mittels vortrainierten Vision- und Sprachmodellen

Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui
Multimodale Open-Vocabulary-Videoklassifikation mittels vortrainierten Vision- und Sprachmodellen
Abstract

Die Nutzung von visuellen und sprachlichen Modellen (VLMs), die auf großen Bild-Text-Paaren vortrainiert wurden, etabliert sich als vielversprechendes Paradigma für offene-Vokabular-Visualisierungserkennung. In dieser Arbeit erweitern wir dieses Paradigma durch die Nutzung von Bewegung und Audio, die natürlicherweise in Videos vorhanden sind. Wir stellen \textbf{MOV} vor, eine einfache aber wirksame Methode zur \textbf{M}ultimodalen \textbf{O}ffenen-\textbf{V}okabular-Video-Klassifikation. In MOV verwenden wir direkt den Vision-Encoder aus vortrainierten VLMs mit minimalen Anpassungen, um Videos, optische Flussdaten und Audiospektrogramme zu kodieren. Wir entwerfen eine cross-modale Fusionsmechanik, um ergänzende multimodale Informationen zu aggregieren. Experimente auf Kinetics-700 und VGGSound zeigen, dass die Einbeziehung von Fluss- oder Audiodaten gegenüber vortrainierten VLMs und bestehenden Methoden erhebliche Leistungssteigerungen bringt. Insbesondere verbessert MOV die Genauigkeit auf Basis-Klassen erheblich, während es gleichzeitig eine bessere Generalisierung auf neue Klassen ermöglicht. MOV erreicht state-of-the-art-Ergebnisse auf den zero-shot-Video-Klassifikationsbenchmarks UCF und HMDB und übertrifft dabei sowohl traditionelle zero-shot-Methoden als auch jüngere Ansätze basierend auf VLMs signifikant. Der Quellcode und die Modelle werden veröffentlicht.

Multimodale Open-Vocabulary-Videoklassifikation mittels vortrainierten Vision- und Sprachmodellen | Neueste Forschungsarbeiten | HyperAI