vor 8 Monaten

Zusammenfassung

Visionsprachmodelle (VLMs), die auf umfangreichen Bild-Text-Paaren vortrainiert wurden, haben eine beeindruckende Übertragbarkeit bei verschiedenen visuellen Aufgaben gezeigt. Die Wissensübertragung von solchen leistungsstarken VLMs ist eine vielversprechende Richtung zur Erstellung effektiver Videokennungssysteme. Dennoch sind derzeitige Forschungen in diesem Bereich noch begrenzt. Wir glauben, dass der größte Nutzen vortrainierter VLMs darin besteht, eine Brücke zwischen den visuellen und textuellen Domänen zu schlagen. In dieser Arbeit schlagen wir ein neues Framework namens BIKE vor, das diese multimodale Brücke nutzt, um bidirektionales Wissen zu erforschen: i) Wir führen den Mechanismus der Videoattributassoziation ein, der das Wissen von Video zu Text verwendet, um textuelle Nebenattribute für die Ergänzung der Videokennung zu generieren. ii) Zudem präsentieren wir einen Mechanismus zur zeitlichen Konzeptidentifikation (Temporal Concept Spotting), der die Expertise von Text zu Video nutzt, um zeitliche Salienz parameterfrei zu erfassen und somit die Videorepräsentation zu verbessern. Ausführliche Studien anhand sechs gängiger Videodatensätze, einschließlich Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet und Charades, zeigen, dass unsere Methode in verschiedenen Erkennungsszenarien wie allgemeiner, zero-shot und few-shot Videokennung den aktuellen Stand der Technik übertreffen kann. Unser bestes Modell erreicht eine Standartechnikgenauigkeit von 88,6 % beim anspruchsvollen Kinetics-400-Datensatz unter Verwendung des veröffentlichten CLIP-Modells. Der Code ist unter https://github.com/whwu95/BIKE verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Aktionserkennung

Multimodale Darstellung

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Aktionserkennung

Multimodale Darstellung

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen | Paper | HyperAI

Command Palette

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Bidirektionale Kreuzmodalwissensexploration für die Videobearbeitung mit vortrainierten Visuallinguistischen Modellen

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters