Suivez les règles : Raisonnement pour la détection d'anomalies vidéo avec des grands modèles de langage

La détection d'anomalies vidéo (VAD) est cruciale pour des applications telles que la surveillance de sécurité et la conduite autonome. Cependant, les méthodes de VAD existantes fournissent peu de justification derrière les détections, ce qui entrave la confiance du public dans les déploiements réels. Dans cet article, nous abordons le VAD avec un cadre de raisonnement. Bien que les grands modèles linguistiques (LLMs) aient montré une capacité de raisonnement révolutionnaire, nous constatons que leur utilisation directe est insuffisante pour le VAD. Plus précisément, les connaissances implicites pré-entraînées dans les LLMs se concentrent sur un contexte général et peuvent donc ne pas s'appliquer à chaque scénario spécifique de VAD réel, entraînant une rigidité et une inexactitude. Pour remédier à cela, nous proposons AnomalyRuler, un nouveau cadre de raisonnement basé sur des règles pour le VAD avec des LLMs. AnomalyRuler comprend deux étapes principales : l'induction et la déduction. Dans l'étape d'induction, le LLM est alimenté par quelques échantillons normaux de référence et résume ensuite ces modèles normaux pour induire un ensemble de règles permettant de détecter les anomalies. L'étape de déduction suit ces règles induites pour identifier les images anormales dans les vidéos de test. De plus, nous avons conçu des stratégies d'agrégation des règles, d'adoucissement perceptif et de raisonnement robuste afin d'améliorer davantage la robustesse d'AnomalyRuler. AnomalyRuler est la première approche de raisonnement pour la tâche de VAD à une classe, qui nécessite uniquement une incitation par quelques échantillons normaux sans avoir besoin d'un entraînement complet, permettant ainsi une adaptation rapide à divers scénarios de VAD. Des expériences exhaustives menées sur quatre benchmarks de VAD montrent que AnomalyRuler offre des performances de détection et des capacités de raisonnement d'avant-garde. AnomalyRuler est open-source et disponible à l'adresse suivante : https://github.com/Yuchen413/AnomalyRuler