Gemeinsame Mix-Verstärkung zur Datenaugmentation für aktionsbasierte Erkennung auf Basis von Skelettdaten
Die aktionsbasierte Erkennung auf Grundlage von Skelettinformationen ist von großem Nutzen für das Verständnis menschlichen Verhaltens in Videos und hat in den letzten Jahren als zentrales Forschungsfeld innerhalb der Aktionserkennung erhebliche Aufmerksamkeit erfahren. Die aktuelle Forschung konzentriert sich darauf, fortschrittlichere Algorithmen zu entwickeln, um räumlich-zeitliche Informationen aus Skelett-Daten effizienter zu extrahieren. Aufgrund der geringen Datenmenge in den bestehenden Skelett-Datensätzen und des Mangels an effektiven Daten-Augmentierungsmethoden neigt das Modelltraining jedoch leicht zu Überanpassung. Um dieser Herausforderung zu begegnen, schlagen wir eine mix-basierte Daten-Augmentierungsmethode vor, die Joint Mixing Data Augmentation (JMDA) heißt, welche die Effektivität und Robustheit verschiedener auf Skelett-Daten basierender Aktionserkennungsalgorithmen allgemein verbessern kann. Im Hinblick auf räumliche Informationen führen wir SpatialMix (SM) ein, eine Methode, die die ursprünglichen diskreten 3D-Skelettinformationen in einen 2D-Raum projiziert. Anschließend wird während des Trainings die projizierte räumliche Information zweier zufälliger Proben gemischt, um eine räumlich basierte Daten-Augmentierung zu erreichen. Was die zeitliche Information betrifft, schlagen wir TemporalMix (TM) vor. Unter Ausnutzung der zeitlichen Kontinuität in Skelett-Daten führen wir eine zeitliche Skalierung (temporal resize) auf den ursprünglichen Skelett-Daten durch und mischen während des Trainings zwei zufällige Proben, um eine zeitlich basierte gemischte Daten-Augmentierung zu realisieren. Zudem analysieren wir das Problem der Merkmalsmismatch (Feature Mismatch, FM), das durch die Einführung mix-basierter Daten-Augmentierung in Skelett-Daten entsteht. Daraufhin stellen wir eine neue Datenpräprozessierungsmethode namens Feature Alignment (FA) vor, die dieses Problem effektiv löst und die Modellleistung verbessert. Darüber hinaus schlagen wir eine neuartige Trainings-Pipeline, die Joint Training Strategy (JTS), vor, die mehrere mix-basierte Daten-Augmentierungsmethoden kombiniert, um die Modellleistung weiter zu steigern. Insbesondere ist unsere vorgeschlagene JMDA plug-and-play und weitgehend anwendbar auf verschiedene auf Skelett-Daten basierende Aktionserkennungsmodelle. Gleichzeitig führt die Anwendung von JMDA weder zu einer Erhöhung der Modellparameter noch zu einem signifikanten zusätzlichen Trainingsaufwand. Wir führen umfangreiche Experimente auf den Datensätzen NTU RGB+D 60 und NTU RGB+D 120 durch, um die Wirksamkeit und Robustheit der vorgeschlagenen JMDA bei mehreren etablierten Algorithmen der Skelett-basierten Aktionserkennung zu demonstrieren.