Spatio-temporale dynamische Inferenznetzwerk für die Erkennung von Gruppenaktivitäten

Die Erkennung von Gruppenaktivitäten zielt darauf ab, die von einer Gruppe von Personen ausgeführte Aktivität zu verstehen. Um dieses Problem zu lösen, ist die Modellierung komplexer räumlich-zeitlicher Interaktionen entscheidend. Bisherige Ansätze sind bei der Schlussfolgerung auf einem vordefinierten Graphen eingeschränkt, wodurch der inhärente, personenspezifische Interaktionskontext vernachlässigt wird. Zudem verwenden sie Inferenzverfahren, die rechenintensiv sind und leicht zum Over-Smoothing-Problem führen. In diesem Paper stellen wir den Dynamic Inference Network (DIN) vor, um räumlich-zeitlich personenspezifische Inferenzen zu ermöglichen. Der DIN besteht aus zwei Modulen: dem Dynamic Relation (DR)-Modul und dem Dynamic Walk (DW)-Modul. Zunächst schlagen wir vor, Interaktionsfelder auf einem primären räumlich-zeitlichen Graphen zu initialisieren. Innerhalb jedes Interaktionsfelds wenden wir das DR-Modul an, um die Beziehungs-Matrix vorherzusagen, und das DW-Modul, um die dynamischen Schritt-Offset-Werte gemeinsam zu schätzen, wodurch ein personenspezifischer Interaktionsgraph entsteht. Durch die Aktualisierung von Merkmalen auf diesem spezifischen Graphen erhält jede Person ein globales Interaktionsfeld, das mit einer lokalen Initialisierung versehen ist. Experimente belegen die Wirksamkeit beider Module. Darüber hinaus erreicht DIN im Vergleich zu vorherigen State-of-the-Art-Methoden erhebliche Verbesserungen auf zwei gängigen Datensätzen unter identischen Bedingungen, wobei der Rechenaufwand des Inferenzmoduls deutlich geringer ist.