Actionserkennungsmaschine: Neuer Denkanstoß zur Aktionserkennung in gekürzten Videos

Bestehende Methoden im Bereich der Videobewegungserkennung unterscheiden in der Regel nicht zwischen menschlichem Körper und Umgebung und passen sich leicht zu sehr den Szenen und Objekten an. In dieser Arbeit stellen wir ein konzeptionell einfaches, allgemeines und leistungsstarkes Framework für die Bewegungserkennung in gekürzten Videos vor, das auf einer personenzentrierten Modellierung abzielt. Die Methode, als Action Machine bezeichnet, verwendet als Eingabe die durch Person-Bounding-Boxen zugeschnittenen Videos. Sie erweitert das aufgeblasene 3D-KonvNet (I3D), indem sie eine Ast für die Schätzungen von menschlichen Poses sowie ein 2D-KonvNet für die posebasierte Bewegungserkennung hinzufügt, wodurch das Training und Testen schnell erfolgen kann. Die Action Machine kann von der Multi-Task-Trainingsmethode von Bewegungserkennung und Pose-Schätzung profitieren sowie von der Fusion von Vorhersagen aus RGB-Bildern und Poses. Auf dem NTU RGB-D-Datensatz erreicht die Action Machine den aktuellen Stand der Technik mit Top-1-Akkuratenzen von 97,2 % bei cross-view und 94,3 % bei cross-subject. Die Action Machine erzielt auch wettbewerbsfähige Ergebnisse auf drei weiteren kleineren Bewegungserkennungsdatensätzen: Northwestern UCLA Multiview Action3D, MSR Daily Activity3D und UTD-MHAD. Der Code wird veröffentlicht werden.