AnyAnomaly : Détection zéro-shot personnalisable d'anomalies vidéo avec LVLM

La détection d’anomalies vidéo (VAD) est essentielle pour l’analyse vidéo et la surveillance en vision par ordinateur. Toutefois, les modèles actuels de VAD reposent sur des motifs normaux appris, ce qui les rend difficiles à appliquer dans des environnements variés. En conséquence, les utilisateurs doivent re-entraîner les modèles ou concevoir des modèles d’intelligence artificielle distincts pour chaque nouvel environnement, une démarche exigeant des compétences en apprentissage automatique, des ressources matérielles à haute performance et une collecte étendue de données, limitant ainsi la faisabilité pratique de la VAD. Pour relever ces défis, cette étude propose une technique de détection d’anomalies vidéo personnalisable (C-VAD) ainsi que le modèle AnyAnomaly. Le cadre C-VAD prend en compte comme événement anormal tout texte défini par l’utilisateur et détecte les trames contenant un événement spécifique dans une vidéo. Nous avons efficacement mis en œuvre AnyAnomaly à l’aide d’une réponse à des questions visuelles prenant en compte le contexte, sans nécessiter de fine-tuning du modèle vision-langage massif. Pour valider l’efficacité du modèle proposé, nous avons construit des jeux de données C-VAD et démontré l’avantage de AnyAnomaly. En outre, notre approche a obtenu des performances compétitives sur des jeux de données standards de VAD, atteignant des résultats de pointe sur le jeu de données UBnormal et surpassant les autres méthodes en généralisation sur l’ensemble des jeux de données. Le code est disponible en ligne à l’adresse github.com/SkiddieAhn/Paper-AnyAnomaly.