HyperAIHyperAI

Command Palette

Search for a command to run...

Gemeinsame Mix-Verstärkung zur Datenaugmentation für aktionsbasierte Erkennung auf Basis von Skelettdaten

Zengfu Wang Linhua Xiang

Zusammenfassung

Die aktionsbasierte Erkennung auf Grundlage von Skelettinformationen ist von großem Nutzen für das Verständnis menschlichen Verhaltens in Videos und hat in den letzten Jahren als zentrales Forschungsfeld innerhalb der Aktionserkennung erhebliche Aufmerksamkeit erfahren. Die aktuelle Forschung konzentriert sich darauf, fortschrittlichere Algorithmen zu entwickeln, um räumlich-zeitliche Informationen aus Skelett-Daten effizienter zu extrahieren. Aufgrund der geringen Datenmenge in den bestehenden Skelett-Datensätzen und des Mangels an effektiven Daten-Augmentierungsmethoden neigt das Modelltraining jedoch leicht zu Überanpassung. Um dieser Herausforderung zu begegnen, schlagen wir eine mix-basierte Daten-Augmentierungsmethode vor, die Joint Mixing Data Augmentation (JMDA) heißt, welche die Effektivität und Robustheit verschiedener auf Skelett-Daten basierender Aktionserkennungsalgorithmen allgemein verbessern kann. Im Hinblick auf räumliche Informationen führen wir SpatialMix (SM) ein, eine Methode, die die ursprünglichen diskreten 3D-Skelettinformationen in einen 2D-Raum projiziert. Anschließend wird während des Trainings die projizierte räumliche Information zweier zufälliger Proben gemischt, um eine räumlich basierte Daten-Augmentierung zu erreichen. Was die zeitliche Information betrifft, schlagen wir TemporalMix (TM) vor. Unter Ausnutzung der zeitlichen Kontinuität in Skelett-Daten führen wir eine zeitliche Skalierung (temporal resize) auf den ursprünglichen Skelett-Daten durch und mischen während des Trainings zwei zufällige Proben, um eine zeitlich basierte gemischte Daten-Augmentierung zu realisieren. Zudem analysieren wir das Problem der Merkmalsmismatch (Feature Mismatch, FM), das durch die Einführung mix-basierter Daten-Augmentierung in Skelett-Daten entsteht. Daraufhin stellen wir eine neue Datenpräprozessierungsmethode namens Feature Alignment (FA) vor, die dieses Problem effektiv löst und die Modellleistung verbessert. Darüber hinaus schlagen wir eine neuartige Trainings-Pipeline, die Joint Training Strategy (JTS), vor, die mehrere mix-basierte Daten-Augmentierungsmethoden kombiniert, um die Modellleistung weiter zu steigern. Insbesondere ist unsere vorgeschlagene JMDA plug-and-play und weitgehend anwendbar auf verschiedene auf Skelett-Daten basierende Aktionserkennungsmodelle. Gleichzeitig führt die Anwendung von JMDA weder zu einer Erhöhung der Modellparameter noch zu einem signifikanten zusätzlichen Trainingsaufwand. Wir führen umfangreiche Experimente auf den Datensätzen NTU RGB+D 60 und NTU RGB+D 120 durch, um die Wirksamkeit und Robustheit der vorgeschlagenen JMDA bei mehreren etablierten Algorithmen der Skelett-basierten Aktionserkennung zu demonstrieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp