Anomales Ereigniserkennung in Videos basierend auf gemeinsamem Lernen von Bewegung und Erscheinung mit mehreren Rangordnungsmaßen
Angesichts der Knappheit an annotierten Datensätzen stellen die Erfassung der kontextabhängigen Natur anormaler Ereignisse sowie die Reduktion von Fehlalarmen bedeutende Herausforderungen im Bereich der Erkennung anormaler Aktivitäten dar. Wir schlagen einen Ansatz namens Deep-network with Multiple Ranking Measures (DMRMs) vor, der die Kontextabhängigkeit mittels einer gemeinsamen Lernstrategie für Bewegungs- und Erscheinungseigenschaften adressiert. In DMRMs werden räumlich-zeitliche Merkmale aus Videos mithilfe eines 3D-Residual-Netzwerks (3D ResNet) extrahiert, während tiefgehende Bewegungsmerkmale durch die Integration der Motionflow-Karteninformationen mit dem 3D ResNet gewonnen werden. Anschließend werden die extrahierten Merkmale zur gemeinsamen Lernung gefusst. Diese Datensynthese wird anschließend durch ein tiefes neuronalen Netzwerk geleitet, um ein tiefes mehrinstanzbasiertes Lernen (Deep Multiple Instance Learning, DMIL) durchzuführen. Dabei wird mithilfe der vorgeschlagenen mehrfachen Ranking-Maße (Multiple Ranking Measures, MRMs) die Kontextabhängigkeit in einer schwach überwachten Weise erlernt. Die MRMs berücksichtigen mehrere Aspekte von Fehlalarmen, und das Netzwerk wird sowohl mit normalen als auch mit anormalen Ereignissen trainiert, wodurch die Fehlalarmrate signifikant reduziert wird. Während der Inferenzphase prognostiziert das Netzwerk für jeden Frame einen Anomalie-Score sowie die Lokalisierung bewegter Objekte mithilfe der Motionflow-Karten. Ein höherer Anomalie-Score deutet auf das Vorliegen eines anormalen Ereignisses hin. Experimentelle Ergebnisse auf zwei aktuellen und anspruchsvollen Datensätzen zeigen, dass der vorgeschlagene Ansatz die Area-Under-the-Curve-(AUC)-Metrik im Vergleich zur state-of-the-art-Methode auf dem UCF-Crime-Datensatz um 6,5 % verbessert und eine AUC von 68,5 % auf dem ShanghaiTech-Datensatz erzielt.