Feature Prediction Diffusion Model für die Video-Anomalieerkennung

Die Anomalieerkennung in Videos ist ein bedeutender Forschungsbereich und eine herausfordernde Aufgabe in praktischen Anwendungen. Aufgrund der Unverfügbarkeit großer, annotierter Anomalieereignisse konzentrieren sich die meisten bestehenden Methoden zur Video-Anomalieerkennung (VAD) darauf, die Verteilung normaler Samples zu lernen, um signifikant abweichende Samples als Anomalien zu identifizieren. Um die Verteilung normaler Bewegung und Erscheinungsbilder gut zu erlernen, werden zahlreiche Hilfsnetzwerke eingesetzt, um Informationen über Vordergrundobjekte oder Aktionen zu extrahieren. Diese hochwertigen semantischen Merkmale filtern effektiv Hintergrundrauschen heraus und verringern dessen Einfluss auf die Erkennungsmodelle. Allerdings beeinflusst die Leistungsfähigkeit dieser zusätzlichen semantischen Modelle entscheidend die Effizienz der VAD-Methoden. Ausgehend von der beeindruckenden generativen Kapazität und der Rauschunterdrückungsfähigkeit von Diffusionsmodellen (DM) stellen wir in dieser Arbeit eine neuartige, auf DM basierende Methode zur Vorhersage von Videoframe-Merkmalsvektoren für die Anomalieerkennung vor. Ziel ist es, die Verteilung normaler Samples zu lernen, ohne zusätzliche Modelle zur Extraktion hochwertiger semantischer Merkmale einzusetzen. Dazu entwickeln wir zwei de-noising Diffusions-implizite Module, die zur Vorhersage und Verbesserung der Merkmale dienen. Das erste Modul konzentriert sich auf die Lernung der Bewegungsmerkmale, während das zweite Modul auf die Lernung der Erscheinungsmerkmale ausgerichtet ist. So weit uns bekannt ist, handelt es sich hierbei um die erste DM-basierte Methode, die Frame-Merkmale für die VAD vorhersagt. Die starke Kapazität von DMs ermöglicht es unserer Methode, die normalen Merkmale präziser vorherzusagen als herkömmliche, nicht-DM-basierte VAD-Methoden, die auf Merkmalsvorhersage basieren. Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz die derzeit besten Konkurrenzmethoden deutlich übertrifft.