Zeitliches Schließgraph für Aktivitätserkennung

Trotz der großen Erfolge im Bereich der Aktivitätsanalyse gibt es noch viele Herausforderungen. Die meisten bisherigen Arbeiten zur Aktivitätserkennung konzentrieren sich mehr auf die Entwicklung effizienter Architekturen oder Video-Abtaststrategien. Aufgrund der Eigenschaften feingranularer Aktionen und langer zeitlicher Strukturen in Videos wird jedoch von der Aktivitätserkennung erwartet, dass sie zeitliche Beziehungen zwischen Videosequenzen analysiert. In diesem Artikel schlagen wir einen effizienten zeitlichen Beziehungsgraphen (Temporal Reasoning Graph, TRG) vor, um sowohl Erscheinungsmerkmale als auch zeitliche Beziehungen zwischen Videosequenzen auf verschiedenen Zeitachsen simultan zu erfassen. Insbesondere bauen wir lernfähige zeitliche Beziehungsgraphen auf, um zeitliche Beziehungen im mehrskaligen Bereich zu untersuchen. Zudem haben wir eine mehrköpfige zeitliche Adjazenzmatrix entwickelt, um verschiedene Arten von zeitlichen Beziehungen darzustellen, was die Extraktion von mehrskaligen zeitlichen Beziehungen erleichtert. Schließlich wird ein mehrköpfiger zeitlicher Beziehungszusammenfasser vorgeschlagen, um die semantische Bedeutung dieser durch die Graphen konvolvierten Merkmale zu extrahieren. Ausführliche Experimente wurden auf weit verbreiteten groß angelegten Datensätzen wie Something-Something und Charades durchgeführt, und die Ergebnisse zeigen, dass unser Modell den Stand der Technik erreichen kann. Eine weitere Analyse zeigt, dass das mit unserem TRG durchgeführte temporale Relationsschließen diskriminative Merkmale für die Aktivitätserkennung extrahieren kann.