Menschenzentrierte Videoanomalieerkennung durch räumlich-zeitliche Posetokenisierung und Transformer

Die Videoanomalieerkennung (VAD) stellt eine erhebliche Herausforderung im Bereich der Computer Vision dar, insbesondere aufgrund der unvorhersehbaren und seltenen Natur anomaler Ereignisse sowie der vielfältigen und dynamischen Umgebungen, in denen sie auftreten. Die menschenzentrierte VAD, ein spezialisiertes Gebiet innerhalb dieses Domains, muss zusätzliche Komplexitäten bewältigen, darunter Variationen im menschlichen Verhalten, potenzielle Datenverzerrungen und erhebliche Datenschutzbedenken im Zusammenhang mit menschlichen Probanden. Diese Probleme erschweren die Entwicklung von Modellen, die sowohl robust als auch übertragbar sind. Um diesen Herausforderungen zu begegnen, haben sich jüngste Fortschritte auf die posebasierte VAD konzentriert, die die menschliche Haltung als hochwertiges Merkmal nutzt, um Datenschutzbedenken zu mildern, Erscheinungsverzerrungen zu reduzieren und Störeinflüsse des Hintergrunds zu minimieren.In dieser Arbeit stellen wir SPARTA vor, eine neuartige transformerbasierte Architektur, die speziell für die menschenzentrierte posebasierte VAD entwickelt wurde. SPARTA führt eine innovative Methode zur räumlich-zeitlichen Pose- und relativen Pose-Tokenisierung (ST-PRP) ein, die eine bereichernde Darstellung der menschlichen Bewegung im Zeitverlauf erzeugt. Dieser Ansatz gewährleistet, dass das Aufmerksamheitsmechanismus des Transformers gleichzeitig räumliche und zeitliche Muster erfasst, anstatt sich nur auf einen Aspekt zu konzentrieren. Die Berücksichtigung der relativen Pose hebt zudem subtile Abweichungen vom normalen menschlichen Verhalten hervor. Der Kern der Architektur ist ein neuartiger Unified Encoder Twin Decoders (UETD)-Transformer, der die Erkennung anomaler Verhaltensweisen in Videodaten erheblich verbessert.Ausführliche Evaluierungen an mehreren Benchmark-Datensätzen zeigen, dass SPARTA konsistent bessere Ergebnisse als bestehende Methoden erzielt und damit einen neuen Stand der Technik in der posebasierten VAD etabliert.