Die Zerlegung und Vereinigung von Graph-Faltungen für die skeletonbasierte Aktionserkennung

Raum-zeitliche Graphen werden häufig von auf Skelette basierenden Aktionserkennungsalgorithmen verwendet, um die Dynamik menschlicher Bewegungen zu modellieren. Um robuste Bewegungsmuster aus diesen Graphen zu erfassen, sind die Aggregation von langreichweitigen und mehrskaligen Kontexten sowie das Modellieren von räumlich-zeitlichen Abhängigkeiten entscheidende Aspekte eines leistungsfähigen Merkmalsextraktors. Bestehende Methoden haben jedoch Einschränkungen bei der (1) unverzerrten Modellierung langreichweitiger Gelenkbeziehungen unter mehrskaligen Operatoren und (2) ungestörten Informationsfluss über den Raum-Zeit-Bereich zur Erfassung komplexer räumlich-zeitlicher Abhängigkeiten. In dieser Arbeit präsentieren wir (1) eine einfache Methode zur Entwirrung von mehrskaligen Graphfaltungen und (2) einen einheitlichen räumlich-zeitlichen Graphfaltungsoperator namens G3D. Das vorgeschlagene Mehrskalen-Aggregationsverfahren trennt die Bedeutung der Knoten in verschiedenen Nachbarschaften für effektive Langreichweitenmodellierung. Der vorgeschlagene G3D-Modul nutzt dichte Querverbindungen im Raum-Zeit-Bereich als Skip-Verbindungen, um direkte Informationsübertragung durch den räumlich-zeitlichen Graphen zu ermöglichen. Durch die Kombination dieser Vorschläge entwickeln wir einen leistungsfähigen Merkmalsextraktor namens MS-G3D, mit dessen Hilfe unser Modell auf drei großen Datensätzen – NTU RGB+D 60, NTU RGB+D 120 und Kinetics Skeleton 400 – bessere Ergebnisse als bisherige Standesder-Forschungsmethoden erzielt.