HyperAIHyperAI
vor 2 Monaten

Abnorme Ereignisse in Videos mittels verengter Normalitätscluster erkennen

Radu Tudor Ionescu; Sorina Smeureanu; Marius Popescu; Bogdan Alexe
Abnorme Ereignisse in Videos mittels verengter Normalitätscluster erkennen
Abstract

Wir formulieren das Problem der Abnormereigniserkennung als eine Aufgabe zur Ausreißererkennung und schlagen einen zweistufigen Algorithmus vor, der auf k-Means-Clustering und One-Class-Support Vector Machines (SVM) basiert, um Ausreißer zu eliminieren. Im Feature-Extraktionsstadium schlagen wir vor, räumlich-zeitliche Würfel mit tiefen Erscheinungsmerkmalen zu erweitern, die aus der letzten Faltungsschicht eines vortrainierten neuronalen Netzes extrahiert werden. Nachdem Bewegungs- und Erscheinungsmerkmale aus dem Trainingsvideo, das ausschließlich normale Ereignisse enthält, extrahiert wurden, wenden wir k-Means-Clustering an, um Clustern zu finden, die verschiedene Arten von normalen Bewegungs- und Erscheinungsmerkmalen repräsentieren. Im ersten Stadium gehen wir davon aus, dass Clustern mit weniger Proben (im Vergleich zu einem bestimmten Schwellenwert) hauptsächlich Ausreißer enthalten, und eliminieren diese Clustern vollständig. Im zweiten Stadium verengen wir die Grenzen der verbleibenden Clustern, indem wir für jeden Cluster ein One-Class-SVM-Modell trainieren. Um abnorme Ereignisse im Testvideo zu erkennen, analysieren wir jedes Testbeispiel und betrachten dessen maximalen Normalitätswert, der durch die trainierten One-Class-SVM-Modelle bereitgestellt wird. Dies basiert auf der Intuition, dass ein Testbeispiel nur einem Cluster der Normalität zugeordnet werden kann. Falls das Testbeispiel sich in keinem eingegrenzten Normalitätscluster gut einfügt, wird es als abnorm gekennzeichnet. Wir vergleichen unsere Methode mit mehreren Stand-of-the-Art-Methoden auf drei Benchmark-Datensätzen. Die empirischen Ergebnisse zeigen, dass unser Framework zur Erkennung abnormer Ereignisse in den meisten Fällen bessere Ergebnisse erzielen kann und dabei das Testvideo in Echtzeit mit 24 Bildern pro Sekunde auf einem einzelnen CPU verarbeitet.