HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Open-Vocabulary-Videoklassifikation mittels vortrainierten Vision- und Sprachmodellen

Rui Qian Yeqing Li Zheng Xu Ming-Hsuan Yang Serge Belongie Yin Cui

Zusammenfassung

Die Nutzung von visuellen und sprachlichen Modellen (VLMs), die auf großen Bild-Text-Paaren vortrainiert wurden, etabliert sich als vielversprechendes Paradigma für offene-Vokabular-Visualisierungserkennung. In dieser Arbeit erweitern wir dieses Paradigma durch die Nutzung von Bewegung und Audio, die natürlicherweise in Videos vorhanden sind. Wir stellen \textbf{MOV} vor, eine einfache aber wirksame Methode zur \textbf{M}ultimodalen \textbf{O}ffenen-\textbf{V}okabular-Video-Klassifikation. In MOV verwenden wir direkt den Vision-Encoder aus vortrainierten VLMs mit minimalen Anpassungen, um Videos, optische Flussdaten und Audiospektrogramme zu kodieren. Wir entwerfen eine cross-modale Fusionsmechanik, um ergänzende multimodale Informationen zu aggregieren. Experimente auf Kinetics-700 und VGGSound zeigen, dass die Einbeziehung von Fluss- oder Audiodaten gegenüber vortrainierten VLMs und bestehenden Methoden erhebliche Leistungssteigerungen bringt. Insbesondere verbessert MOV die Genauigkeit auf Basis-Klassen erheblich, während es gleichzeitig eine bessere Generalisierung auf neue Klassen ermöglicht. MOV erreicht state-of-the-art-Ergebnisse auf den zero-shot-Video-Klassifikationsbenchmarks UCF und HMDB und übertrifft dabei sowohl traditionelle zero-shot-Methoden als auch jüngere Ansätze basierend auf VLMs signifikant. Der Quellcode und die Modelle werden veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp