Schwach überwachte Videoanomalieerkennung und -lokalisation mit räumlich-zeitlichen Prompten

Die aktuelle Aufgabe der schwach überwachten Videoanomalieerkennung (WSVAD) zielt darauf ab, auf Frame-Ebene anomale Ereignisse zu erkennen, wenn nur grobe Videoebenen-Annotationen zur Verfügung stehen. Bestehende Arbeiten beinhalten in der Regel das Extrahieren von globalen Merkmalen aus hochaufgelösten Videoframes und das Trainieren von Frame-Ebene-Klassifizierern zur Erkennung von Anomalien in der zeitlichen Dimension. Allerdings treten die meisten anomalen Ereignisse in lokalisierten räumlichen Bereichen auf und nicht im gesamten Videoframe, was darauf hindeutet, dass bestehende Frame-Ebene-Merkmal-basierte Ansätze möglicherweise durch vorherrschende Hintergrundinformationen irregeführt werden und eine Interpretation der erkannten Anomalien fehlt. Um dieses Dilemma zu lösen, stellt dieser Artikel eine neuartige Methode namens STPrompt vor, die räumlich-zeitliche Prompt-Embeddings für schwach überwachte Videoanomalieerkennung und -lokalisation (WSVADL) basierend auf vorgefertigten visuellen-sprachlichen Modellen (VLMs) lernt. Unser vorgeschlagener Ansatz verwendet eine Zweiström-Netzstruktur, wobei ein Strömungsast sich auf die zeitliche Dimension konzentriert und der andere hauptsächlich auf die räumliche Dimension. Durch die Nutzung des gelernten Wissens aus vorgefertigten VLMs und die Einbeziehung natürlicher Bewegungsprioritäten aus den Rohvideos lernt unser Modell Prompt-Embeddings, die mit räumlich-zeitlichen Regionen von Videos (z.B., Patches einzelner Frames) ausgerichtet sind, um spezifische lokale Anomaliebergeiche zu identifizieren. Dies ermöglicht eine genaue Videoanomalieerkennung und reduziert gleichzeitig den Einfluss von Hintergrundinformationen. Ohne detaillierte räumlich-zeitliche Annotationen oder zusätzliche Objekterkennungs/-verfolgungsmechanismen zu benötigen, erreicht unsere Methode den Stand der Technik auf drei öffentlichen Benchmarks für die WSVADL-Aufgabe.