Einheitliches Keypoint-basiertes Aktionserkennungsframework durch strukturierte Keypoint-Pooling

Dieses Papier behandelt gleichzeitig drei Einschränkungen, die mit der konventionellen skeletonbasierten Aktionserkennung verbunden sind: Skeletterkennungs- und -verfolgungsfehler, geringe Vielfalt der zu erkennenden Aktionen sowie personenspezifische und rahmenspezifische Aktionserkennung. Ein tiefes Lernparadigma für Punktwolken wird der Aktionserkennung vorgestellt, und ein einheitliches Framework zusammen mit einer neuen tiefen Neuronalnetz-Architektur namens Strukturierte Keypoint-Pooling (Structured Keypoint Pooling) wird vorgeschlagen. Die vorgeschlagene Methode aggregiert keypoint-basierte Merkmale aufgrund vorheriger Kenntnisse über die Datenstruktur (die in Skeletten inhärent ist), wie die Instanzen und Frames, denen jeder Keypoint zugeordnet ist, dünn besetzt und kaskadenförmig. Dies führt zu Robustheit gegenüber Eingabefehlern. Ihre weniger eingeschränkte und verfolgungsfreie Architektur ermöglicht es, zeitliche Keypoints, die sowohl menschliche Skelette als auch Konturen von nichtmenschlichen Objekten umfassen, effizient als 3D-Punktwolke zu behandeln und erweitert damit die Vielfalt der zu erkennenden Aktionen. Darüber hinaus schlagen wir einen Pooling-Umschalttrick vor, der durch das Strukturierte Keypoint-Pooling inspiriert ist. Dieser Trick wechselt die Pooling-Kerne zwischen den Trainings- und Inferenzphasen, um personenspezifische und rahmenspezifische Aktionen unter schwach überwachtem Training nur mit videobasierten Aktionsetiketten zu erkennen. Dieser Trick ermöglicht unser Trainingsverfahren, neue Datenaugmentierungsmethoden natürlich einzuführen, die mehrere aus verschiedenen Videos extrahierte Punktwolken mischen. In den Experimenten wird die Effektivität der vorgeschlagenen Methode gegen die genannten Einschränkungen umfassend verifiziert, wobei die Methode den aktuellen Stand der Technik in skeletonbasierter Aktionserkennung und raumzeitlicher Aktionslokalisation übertrifft.