HyperAIHyperAI

Command Palette

Search for a command to run...

VadCLIP : Adaptation des modèles vision-langage pour la détection d'anomalies vidéo supervisée de manière faible

Yanning Zhang Peng Wang Qingsen Yan Lingru Zhou Guansong Pang Xuerong Zhou Peng Wu

Résumé

Le modèle récent de pré-entraînement contrastif langage-image (CLIP) a connu un grand succès dans une large gamme de tâches au niveau image, démontrant une capacité remarquable à apprendre des représentations visuelles puissantes et riches en sémantique. Un problème ouvert et pertinent consiste à adapter efficacement un tel modèle performant au domaine vidéo, tout en concevant un détecteur robuste d’anomalies vidéo. Dans ce travail, nous proposons VadCLIP, un nouveau paradigme pour la détection d’anomalies vidéo faiblement supervisée (WSVAD), en exploitant directement le modèle CLIP gelé sans aucun processus de pré-entraînement ni de fine-tuning. Contrairement aux approches actuelles qui alimentent directement des caractéristiques extraites dans un classificateur faiblement supervisé pour une classification binaire au niveau des trames, VadCLIP tire pleinement parti des associations fines entre vision et langage grâce à la puissance du modèle CLIP, en introduisant une architecture à deux branches. Une première branche utilise uniquement les caractéristiques visuelles pour une classification binaire grossière, tandis que la seconde exploite pleinement l’alignement fin entre images et langage. Grâce à cette architecture à deux branches, VadCLIP parvient à réaliser à la fois une détection d’anomalies vidéo grossière et fine, en transférant les connaissances pré-entraînées issues de CLIP vers la tâche WSVAD. Nous menons des expériences approfondies sur deux benchmarks couramment utilisés, montrant que VadCLIP atteint les meilleurs résultats tant pour la détection grossière que fine en WSVAD, surpassant largement les méthodes de pointe. Plus précisément, VadCLIP obtient des scores de 84,51 % AP et 88,02 % AUC sur XD-Violence et UCF-Crime, respectivement. Le code source et les caractéristiques sont disponibles à l’adresse suivante : https://github.com/nwpu-zxr/VadCLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp