Aktionserkennung mit mehrströmiger Bewegungsmodellierung und Maximierung der gegenseitigen Information

Die Aktionserkennung ist seit langem ein grundlegendes und faszinierendes Problem im Bereich der künstlichen Intelligenz. Die Aufgabe ist herausfordernd, da Aktionen durch ihre hohe Dimensionalität sowie feine Bewegungsdetails gekennzeichnet sind, die berücksichtigt werden müssen. Aktuelle state-of-the-art Ansätze lernen typischerweise aus artikulierten Bewegungssequenzen im direkten dreidimensionalen euklidischen Raum. Der herkömmliche euklidische Raum ist jedoch ineffizient für die Modellierung wichtiger Bewegungseigenschaften wie der gelenkweisen Winkelbeschleunigung, die die treibenden Kräfte hinter der Bewegung offenlegt. Zudem berücksichtigen derzeitige Methoden alle Kanäle gleichwertig und verfügen über keine theoretischen Einschränkungen, um task-relevante Merkmale aus den Eingabedaten zu extrahieren.In diesem Paper greifen wir diese Herausforderungen aus drei Perspektiven an: (1) Wir schlagen vor, eine Beschleunigungsrepräsentation einzuführen, die die höheren Ableitungen der Bewegung explizit modelliert. (2) Wir stellen ein neuartiges Stream-GCN-Netzwerk vor, das mehrere Streams und Kanal-Attention beinhaltet, wobei verschiedene Darstellungen (d. h. Streams) sich gegenseitig ergänzen, um eine präzisere Aktionserkennung zu ermöglichen, während die Attention jene wichtigen Kanäle hervorhebt. (3) Wir untersuchen Supervision auf Merkmalsebene, um die Extraktion task-relevanter Informationen zu maximieren, und formulieren dies als eine Mutual-Information-Loss-Funktion. Empirisch erreicht unser Ansatz die neue state-of-the-art-Leistung auf drei Benchmark-Datensätzen: NTU RGB+D, NTU RGB+D 120 und NW-UCLA. Unser Code wird anonym auf https://github.com/ActionR-Group/Stream-GCN veröffentlicht, um die Forschungsgemeinschaft zu inspirieren.