vor 17 Tagen

COMPOSER: Kompositionale Reasoning von Gruppenaktivitäten in Videos mit Keypoint-Only-Modality

Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf

Abstract

Die Erkennung von Gruppenaktivitäten erfasst die gemeinsam von einer Gruppe von Akteuren ausgeführte Handlung, was eine zusammengesetzte Schlussfolgerung über Akteure und Objekte erfordert. Wir nähern uns dieser Aufgabe, indem wir den Videoinhalt als Tokens modellieren, die mehrskalige semantische Konzepte im Video repräsentieren. Wir stellen COMPOSER vor, eine auf Multiskalen-Transformern basierende Architektur, die auf der Basis von Aufmerksamkeit Schlussfolgerungen über Tokens auf jeder Skala zieht und die Zusammensetzung von Gruppenaktivitäten kompositionell lernt. Zudem leiden bisherige Ansätze unter Szenen-Bias und bergen Datenschutz- sowie ethische Bedenken. Durch die ausschließliche Nutzung der Keypoint-Modality reduzieren wir Szenen-Bias und verhindern die Erfassung detaillierter visueller Daten, die private oder voreingenommene Informationen über Nutzer enthalten könnten. Wir verbessern die Multiskalenrepräsentationen in COMPOSER durch Clustering der intermediären Skalenrepräsentationen, wobei wir gleichzeitig konsistente Clusterzuordnungen zwischen den Skalen beibehalten. Schließlich nutzen wir Techniken wie Hilfsvorhersagen und Daten-Augmentierungen, die speziell auf Keypoint-Signale zugeschnitten sind, um das Modelltraining zu unterstützen. Wir demonstrieren die Stärke und Interpretierbarkeit des Modells an zwei weit verbreiteten Datensätzen (Volleyball und Collective Activity). COMPOSER erreicht mit lediglich der Keypoint-Modality eine Verbesserung von bis zu +5,4 %. Der Quellcode ist unter https://github.com/hongluzhou/composer verfügbar.