HyperAIHyperAI
vor 17 Tagen

Neu betrachtung der zeitlichen Modellierung für das Wissenstransfer von Bild zu Video basierend auf CLIP

Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li
Neu betrachtung der zeitlichen Modellierung für das Wissenstransfer von Bild zu Video basierend auf CLIP
Abstract

Bild-Text-Vortrainierte Modelle, wie beispielsweise CLIP, haben beeindruckende, allgemeine multimodale Kenntnisse gezeigt, die aus großen Mengen an Bild-Text-Datensätzen gelernt wurden, wodurch sie zunehmend Aufmerksamkeit erregen, insbesondere hinsichtlich ihres Potenzials, die Lernung visueller Darstellungen im Video-Bereich zu verbessern. In diesem Paper untersuchen wir im Kontext des Wissensübertrags von Bildern auf Videos erneut die zeitliche Modellierung basierend auf dem CLIP-Modell, was der Schlüssel zur Erweiterung von Bild-Text-Vortrainierten Modellen auf den Video-Bereich darstellt. Wir stellen fest, dass gegenwärtige Mechanismen zur zeitlichen Modellierung entweder auf hochlevelige, semantikdominierte Aufgaben (z. B. Retrieval) oder auf niedriglevelige, visuelle Musterdominierte Aufgaben (z. B. Erkennung) zugeschnitten sind und nicht gleichzeitig für beide Aufgabentypen funktionieren. Die zentrale Schwierigkeit besteht darin, zeitliche Abhängigkeiten zu modellieren, während gleichzeitig sowohl hochlevelige als auch niedriglevelige Kenntnisse aus dem CLIP-Modell genutzt werden. Um dieses Problem zu lösen, stellen wir das Spatial-Temporal Auxiliary Network (STAN) vor – einen einfachen und effektiven Mechanismus zur zeitlichen Modellierung, der das CLIP-Modell auf eine Vielzahl von Video-Aufgaben erweitert. Insbesondere ermöglicht STAN den Übertrag von sowohl niedrig- als auch hochleveligen Kenntnissen durch eine Zweigstruktur mit dekomponierten räumlich-zeitlichen Modulen, die es erlauben, mehrstufige CLIP-Features räumlich-zeitlich zu kontextualisieren. Wir evaluieren unsere Methode an zwei repräsentativen Video-Aufgaben: Video-Text-Retrieval und Video-Erkennung. Umfangreiche Experimente belegen die Überlegenheit unseres Modells gegenüber den aktuellen State-of-the-Art-Methoden auf verschiedenen Datensätzen, darunter MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400 und Something-Something-V2. Der Quellcode wird unter https://github.com/farewellthree/STAN verfügbar sein.