Video-Anomalieerkennung basierend auf mehreren Instanzen unter Verwendung tiefer zeitlicher Kodierungs-Dekodierungs-Modelle

In diesem Artikel stellen wir eine schwach überwachte tiefen zeitliche Kodierungs-Entkodierungs-Lösung für die Anomalieerkennung in Überwachungsvideos unter Verwendung von Multiple-Instance-Learning vor. Der vorgeschlagene Ansatz nutzt sowohl anormale als auch normale Videoclips während des Trainings, wobei das Verfahren im Rahmen des Multiple-Instance-Frameworks entwickelt wurde, bei dem ein Video als „Bag“ und Videoclips als Instanzen innerhalb dieser Bag betrachtet werden. Unser Hauptbeitrag liegt in dem neuartigen Ansatz zur Berücksichtigung zeitlicher Beziehungen zwischen den Videoinstanzen. Wir behandeln Videoclips nicht als unabhängige Instanzen, sondern als sequenzielle visuelle Daten. Hierfür verwenden wir ein tiefes zeitliches Kodierungsnetzwerk, das speziell darauf ausgelegt ist, die räumlich-zeitliche Entwicklung der Videoinstanzen über die Zeit zu erfassen. Zudem schlagen wir eine neue Verlustfunktion vor, die glatter ist als ähnliche Verlustfunktionen, die kürzlich in der Computer Vision-Literatur vorgestellt wurden, und daher eine schnellere Konvergenz sowie eine verbesserte Robustheit gegenüber lokalen Minima während des Trainings aufweist. Die vorgeschlagene zeitliche Kodierungs-Entkodierungs-Strategie mit modifizierter Verlustfunktion wird in Simulationsstudien mit den aktuellen Stand der Technik verglichen. Die Ergebnisse zeigen, dass die vorgeschlagene Methode entweder gleich gut oder besser abschneidet als die gegenwärtigen State-of-the-Art-Lösungen für die Anomalieerkennung in Videoüberwachungsanwendungen.