HyperAIHyperAI

Command Palette

Search for a command to run...

VadCLIP: Anpassung von Vision-Sprache-Modellen für schwach beschriftete Video-Anomalieerkennung

Yanning Zhang Peng Wang Qingsen Yan Lingru Zhou Guansong Pang Xuerong Zhou Peng Wu

Zusammenfassung

Der jüngst vorgestellte contrastive language-image pre-training (CLIP)-Modell hat bei einer Vielzahl von bildbasierten Aufgaben erheblichen Erfolg gezeigt und demonstriert eine bemerkenswerte Fähigkeit, leistungsfähige visuelle Darstellungen mit reicher Semantik zu lernen. Ein offenes und lohnenswertes Forschungsproblem ist die effiziente Anpassung eines solch starken Modells auf den Videobereich sowie die Entwicklung eines robusten Anomalie-Detektors für Videos. In dieser Arbeit präsentieren wir VadCLIP, ein neues Paradigma für schwach überwachte Video-Anomalieerkennung (WSVAD), das das gefrorene CLIP-Modell direkt nutzt, ohne dass eine zusätzliche Vortrainings- oder Feintuning-Phase erforderlich ist. Im Gegensatz zu bestehenden Ansätzen, die extrahierte Merkmale direkt in einen schwach überwachten Klassifikator zur framebasierten binären Klassifikation eingeben, nutzt VadCLIP die feinabgestimmten Verbindungen zwischen Vision und Sprache, die durch CLIP ermöglicht werden, vollständig und basiert auf einem Dual-Branch-Architekturansatz. Ein Zweig verwendet lediglich visuelle Merkmale für eine grobe binäre Klassifikation, während der andere Zweig die feinabgestimmte Sprache-Bild-Ausrichtung vollständig ausnutzt. Durch die Vorteile des Dual-Branch-Ansatzes ermöglicht VadCLIP sowohl grob- als auch feinkörnige Video-Anomalieerkennung durch Übertragung vortrainierter Kenntnisse von CLIP auf die WSVAD-Aufgabe. Wir führen umfangreiche Experimente auf zwei gängigen Benchmarks durch und zeigen, dass VadCLIP sowohl bei der grob- als auch bei der feinkörnigen WSVAD die beste Leistung erzielt und die derzeit besten Methoden deutlich übertrifft. Insbesondere erreicht VadCLIP auf XD-Violence eine AP von 84,51 % und auf UCF-Crime eine AUC von 88,02 %. Der Quellcode und die extrahierten Merkmale sind unter https://github.com/nwpu-zxr/VadCLIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp