AnyAnomaly: Zero-Shot anpassbare Video-Anomalieerkennung mit LVLM

Die Video-Anomalieerkennung (VAD) ist für die Videoanalyse und Überwachung im Bereich des Computer Vision von entscheidender Bedeutung. Allerdings beruhen bestehende VAD-Modelle auf gelernten Normalmustern, was ihre Anwendung in unterschiedlichen Umgebungen erschwert. Folglich müssen Benutzer Modelle neu trainieren oder separate KI-Modelle für neue Umgebungen entwickeln, was Fachwissen im Bereich des maschinellen Lernens, leistungsstarke Hardware und umfangreiche Datensammlung erfordert und die praktische Anwendbarkeit von VAD einschränkt. Um diese Herausforderungen zu bewältigen, stellt diese Studie eine anpassbare Video-Anomalieerkennung (C-VAD) und das AnyAnomaly-Modell vor. C-VAD interpretiert benutzerdefinierten Text als Anomalie und erkennt Frames in einem Video, die ein spezifiziertes Ereignis enthalten. Wir haben AnyAnomaly effizient durch eine kontextbewusste visuelle Fragebeantwortung realisiert, ohne das große Vision-Sprachmodell zu fine-tunen. Zur Validierung der Wirksamkeit des vorgeschlagenen Modells haben wir C-VAD-Datensätze erstellt und die Überlegenheit von AnyAnomaly nachgewiesen. Darüber hinaus zeigte unser Ansatz wettbewerbsfähige Leistung auf Standard-VAD-Datensätzen und erreichte state-of-the-art-Ergebnisse auf dem UBnormal-Datensatz sowie eine überlegene Generalisierungsfähigkeit gegenüber allen Datensätzen. Unser Quellcode ist online unter github.com/SkiddieAhn/Paper-AnyAnomaly verfügbar.