HyperAIHyperAI
vor 8 Tagen

MIST: Multiple Instance Self-Training Framework für die Video-Anomalieerkennung

Jia-Chang Feng, Fa-Ting Hong, Wei-Shi Zheng
MIST: Multiple Instance Self-Training Framework für die Video-Anomalieerkennung
Abstract

Schwach beschriftete Video-Anomalieerkennung (WS-VAD) zielt darauf ab, Anomalien anhand diskriminativer Repräsentationen von normalen Ereignissen zu unterscheiden. Die meisten bestehenden Ansätze leiden unter unzureichenden Video-Repräsentationen. In dieser Arbeit entwickeln wir einen mehrinstanzbasierten Selbsttrainings-Framework (MIST), um task-spezifische diskriminative Repräsentationen effizient mit lediglich videolevel-Anmerkungen zu verfeinern. Insbesondere besteht MIST aus zwei Komponenten: 1) einem mehrinstanzbasierten Pseudolabel-Generator, der eine spärliche kontinuierliche Abtaststrategie anwendet, um zuverlässigere Clip-level-Pseudolabels zu erzeugen, und 2) einem selbstgeleiteten Aufmerksamkeits-Verstärkungs-Feature-Encoder, der darauf abzielt, automatisch auf anomale Regionen innerhalb von Bildern zu fokussieren, während task-spezifische Repräsentationen extrahiert werden. Zudem implementieren wir ein Selbsttrainings-Schema zur Optimierung beider Komponenten und erhalten schließlich einen task-spezifischen Feature-Encoder. Umfassende Experimente auf zwei öffentlichen Datensätzen belegen die Wirksamkeit unseres Ansatzes, wobei unsere Methode sowohl gegenüber bestehenden überwachten als auch schwach überwachten Methoden vergleichbare oder sogar bessere Leistungen erzielt – insbesondere erreicht sie eine Frame-level AUC von 94,83 % auf dem ShanghaiTech-Datensatz.

MIST: Multiple Instance Self-Training Framework für die Video-Anomalieerkennung | Neueste Forschungsarbeiten | HyperAI