HyperAIHyperAI
vor 17 Tagen

Jagd nach Gruppenhinweisen mit Transformers für die Erkennung sozialer Gruppenaktivitäten

Masato Tamura, Rahul Vishwakarma, Ravigopal Vennelakanti
Jagd nach Gruppenhinweisen mit Transformers für die Erkennung sozialer Gruppenaktivitäten
Abstract

Diese Arbeit präsentiert einen neuartigen Rahmen für die Erkennung sozialer Gruppenaktivitäten. Als eine erweiterte Aufgabe der Gruppenaktivitäts-Erkennung erfordert die Erkennung sozialer Gruppenaktivitäten die Identifikation mehrerer Untergruppenaktivitäten sowie die Zuordnung von Gruppenmitgliedern. Die meisten bestehenden Methoden bearbeiten beide Aufgaben, indem sie Regionenmerkmale verfeinern und diese anschließend zu Aktivitätsmerkmalen zusammenfassen. Diese heuristische Merkmalsgestaltung macht die Wirksamkeit der Merkmale anfällig für unvollständige Personenlokalisierung und vernachlässigt die Bedeutung von Szenenkontexten. Darüber hinaus sind Regionenmerkmale suboptimal zur Identifikation von Gruppenmitgliedern, da diese Merkmale möglicherweise von den Merkmalen der Personen innerhalb der Region dominiert werden und unterschiedliche Semantik aufweisen. Um diese Nachteile zu überwinden, schlagen wir vor, Aufmerksamkeitsmodule in Transformers zu nutzen, um effektive soziale Gruppenmerkmale zu generieren. Unser Ansatz ist so gestaltet, dass die Aufmerksamkeitsmodule relevante Merkmale für soziale Gruppenaktivitäten identifizieren und aggregieren, wodurch für jede soziale Gruppe ein effektives Merkmal erzeugt wird. Die Informationen über Gruppenmitglieder werden in die Merkmale eingebettet und können daher durch Feed-Forward-Netzwerke abgerufen werden. Die Ausgaben der Feed-Forward-Netzwerke beschreiben die Gruppen so präzise, dass Gruppenmitglieder mittels einfacher Hungarian-Matching-Verfahren zwischen Gruppen und Individuen identifiziert werden können. Experimentelle Ergebnisse zeigen, dass unsere Methode auf den Datensätzen Volleyball und Collective Activity die bisherigen State-of-the-Art-Methoden übertrifft.