HyperAIHyperAI
vor 2 Monaten

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen

Wenhao Wu; Xiaohan Wang; Haipeng Luo; Jingdong Wang; Yi Yang; Wanli Ouyang
Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen
Abstract

Visionsprachmodelle (VLMs), die auf umfangreichen Bild-Text-Paaren vortrainiert wurden, haben eine beeindruckende Übertragbarkeit bei verschiedenen visuellen Aufgaben gezeigt. Die Wissensübertragung von solchen leistungsstarken VLMs ist eine vielversprechende Richtung zur Erstellung effektiver Videokennungssysteme. Dennoch sind derzeitige Forschungen in diesem Bereich noch begrenzt. Wir glauben, dass der größte Nutzen vortrainierter VLMs darin besteht, eine Brücke zwischen den visuellen und textuellen Domänen zu schlagen. In dieser Arbeit schlagen wir ein neues Framework namens BIKE vor, das diese multimodale Brücke nutzt, um bidirektionales Wissen zu erforschen: i) Wir führen den Mechanismus der Videoattributassoziation ein, der das Wissen von Video zu Text verwendet, um textuelle Nebenattribute für die Ergänzung der Videokennung zu generieren. ii) Zudem präsentieren wir einen Mechanismus zur zeitlichen Konzeptidentifikation (Temporal Concept Spotting), der die Expertise von Text zu Video nutzt, um zeitliche Salienz parameterfrei zu erfassen und somit die Videorepräsentation zu verbessern. Ausführliche Studien anhand sechs gängiger Videodatensätze, einschließlich Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet und Charades, zeigen, dass unsere Methode in verschiedenen Erkennungsszenarien wie allgemeiner, zero-shot und few-shot Videokennung den aktuellen Stand der Technik übertreffen kann. Unser bestes Modell erreicht eine Standartechnikgenauigkeit von 88,6 % beim anspruchsvollen Kinetics-400-Datensatz unter Verwendung des veröffentlichten CLIP-Modells. Der Code ist unter https://github.com/whwu95/BIKE verfügbar.

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen | Neueste Forschungsarbeiten | HyperAI