Shap-Mix: Shapley-Wert-gesteuertes Mixing für die Long-Tailed Skeleton-basierte Aktenerkennung

In real-world-Szenarien fallen menschliche Aktionen oft einer langen-Schwanz-Verteilung unter, was die bestehenden, auf skelettbasierten Aktionserkennung basierenden Ansätze, die überwiegend auf ausgewogenen Datensätzen entwickelt wurden, zu einer starken Leistungseinbuße führt. In jüngster Zeit wurden zahlreiche Bemühungen unternommen, um das Lernen in Bild- und Video-Daten mit langen-Schwanz-Verteilungen zu verbessern. Eine direkte Anwendung dieser Ansätze auf Skelett-Daten kann jedoch suboptimal sein, da dabei die entscheidenden räumlich-zeitlichen Bewegungsmuster nicht ausreichend berücksichtigt werden, insbesondere bei modality-spezifischen Methoden wie Daten-Augmentation. Um diesem Problem entgegenzuwirken, berücksichtigen wir die entscheidende Rolle der Körperregionen bei räumlich konzentrierten menschlichen Aktionen und konzentrieren uns auf Misch-Augmentierungen. Wir stellen eine neuartige Methode, Shap-Mix, vor, die das Lernen bei langen-Schwanz-Verteilungen verbessert, indem sie repräsentative Bewegungsmuster für die selteneren Klassen extrahiert. Konkret entwickeln wir zunächst eine effektive räumlich-zeitliche Mischstrategie für Skelett-Daten, um die Qualität der Repräsentation zu steigern. Anschließend wird eine Aufmerksamkeitsleitung vorgestellt, die aus der Schätzung der Aufmerksamkeit basierend auf dem Shapley-Wert und einer für seltene Klassen angepassten Mischpolitik besteht. Diese Methode bewahrt die auffälligen Bewegungsteile seltener Klassen in den gemischten Daten und stellt explizit die Beziehung zwischen entscheidenden strukturellen Körpermerkmalen und hochwertigen Semantiken her. Umfangreiche Experimente an drei großen Skelett-Datensätzen zeigen eine bemerkenswerte Leistungssteigerung sowohl unter langen-Schwanz- als auch unter ausgewogenen Bedingungen. Das Projekt ist öffentlich zugänglich unter: https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.html.