HyperAIHyperAI

Command Palette

Search for a command to run...

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

Zusammenfassung

Visionsprachmodelle (VLMs), die auf umfangreichen Bild-Text-Paaren vortrainiert wurden, haben eine beeindruckende Übertragbarkeit bei verschiedenen visuellen Aufgaben gezeigt. Die Wissensübertragung von solchen leistungsstarken VLMs ist eine vielversprechende Richtung zur Erstellung effektiver Videokennungssysteme. Dennoch sind derzeitige Forschungen in diesem Bereich noch begrenzt. Wir glauben, dass der größte Nutzen vortrainierter VLMs darin besteht, eine Brücke zwischen den visuellen und textuellen Domänen zu schlagen. In dieser Arbeit schlagen wir ein neues Framework namens BIKE vor, das diese multimodale Brücke nutzt, um bidirektionales Wissen zu erforschen: i) Wir führen den Mechanismus der Videoattributassoziation ein, der das Wissen von Video zu Text verwendet, um textuelle Nebenattribute für die Ergänzung der Videokennung zu generieren. ii) Zudem präsentieren wir einen Mechanismus zur zeitlichen Konzeptidentifikation (Temporal Concept Spotting), der die Expertise von Text zu Video nutzt, um zeitliche Salienz parameterfrei zu erfassen und somit die Videorepräsentation zu verbessern. Ausführliche Studien anhand sechs gängiger Videodatensätze, einschließlich Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet und Charades, zeigen, dass unsere Methode in verschiedenen Erkennungsszenarien wie allgemeiner, zero-shot und few-shot Videokennung den aktuellen Stand der Technik übertreffen kann. Unser bestes Modell erreicht eine Standartechnikgenauigkeit von 88,6 % beim anspruchsvollen Kinetics-400-Datensatz unter Verwendung des veröffentlichten CLIP-Modells. Der Code ist unter https://github.com/whwu95/BIKE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp