HyperAIHyperAI
vor 18 Tagen

Gruppenaktivitätserkennung mittels effektiver Mehrmodaldaten-Beziehungsrepräsentation mit zeitlich-raumlicher Aufmerksamkeit

{AND XU LIU, Dong Wang, Meng Jian, Lifang Wu, HENG FU, Dezhong Xu}
Abstract

Die Erkennung von Gruppenaktivitäten hat aufgrund ihrer vielfältigen Anwendungen in der Sportanalyse, autonomen Fahrzeugen, CCTV-Überwachungssystemen und Videozusammenfassungssystemen erhebliches Interesse geweckt. Die meisten bestehenden Methoden basieren typischerweise auf Erscheinungsmerkmalen und berücksichtigen selten die zugrundeliegenden Interaktionsinformationen. In dieser Arbeit wird ein neuartiges Verfahren zur Erkennung von Gruppenaktivitäten vorgestellt, das auf einer mehrmodalen Beziehungsrepräsentation mit zeitlich-raumlicher Aufmerksamkeit basiert. Zunächst führen wir ein Objekt-Beziehungsmodul ein, das alle Objekte in einer Szene gleichzeitig verarbeitet, indem es eine Wechselwirkung zwischen ihren Erscheinungsmerkmalen und geometrischen Eigenschaften nutzt, wodurch die Modellierung ihrer Beziehungen ermöglicht wird. Zum zweiten wird ein Optisch-Fluss-Netzwerk durch Verwendung der Aktionsverlustfunktion als überwachtes Signal feinabgestimmt, um effektive Bewegungsmerkmale zu extrahieren. Anschließend werden zwei Arten von Inferenzmodellen vorgeschlagen – opt-GRU und relation-GRU –, die dazu dienen, die Objektbeziehungen und Bewegungsrepräsentationen effizient zu kodieren und diskriminative frame-basierte Merkmalsrepräsentationen zu erzeugen. Schließlich wird eine auf Aufmerksamkeit basierende zeitliche Aggregationsschicht vorgeschlagen, die frame-basierte Merkmale mit unterschiedlichen Gewichten integriert und somit effektive video-basierte Repräsentationen bildet. Ausführliche Experimente wurden auf zwei etablierten Datensätzen durchgeführt, wobei jeweils der Stand der Technik erreicht wurde. Die Datensätze sind der Volleyball-Datensatz und der Collective Activity-Datensatz.