Video-Anomalieerkennung durch Lösen entkoppelter räumlich-zeitlicher Puzzle-Aufgaben

Video-Anomalieerkennung (VAD) ist ein zentrales Thema in der Computer Vision. Ausgehend von den jüngsten Fortschritten im selbstüberwachten Lernen adressiert dieser Artikel die VAD durch die Lösung einer intuitiven, jedoch herausfordernden Vorlernaufgabe: räumlich-zeitliche Jigsaw-Puzzles, die als Mehrfach-Klassifikationsaufgabe mit feiner Klassifizierung formuliert werden. Unsere Methode zeichnet sich gegenüber bestehenden Ansätzen durch mehrere Vorteile aus: 1) Die räumlich-zeitlichen Jigsaw-Puzzles werden hinsichtlich der räumlichen und zeitlichen Dimensionen entkoppelt, wodurch jeweils hochdiskriminative Erscheinungs- und Bewegungsmerkmale erfasst werden können; 2) Es werden vollständige Permutationen verwendet, um eine reichhaltige Vielfalt an Puzzles mit unterschiedlichen Schwierigkeitsgraden zu generieren, was dem Netzwerk ermöglicht, feine räumlich-zeitliche Unterschiede zwischen normalen und abnormalen Ereignissen zu erkennen; und 3) Die Vorlernaufgabe wird end-to-end gelöst, ohne auf vortrainierte Modelle angewiesen zu sein. Unser Ansatz erreicht eine bessere Leistung als die derzeitigen State-of-the-Art-Methoden auf drei öffentlichen Benchmarks. Insbesondere auf dem ShanghaiTech-Campus-Datensatz übertrifft unsere Methode Rekonstruktions- und Vorhersage-basierte Ansätze deutlich.