HyperAIHyperAI
vor 2 Monaten

Erkundung der Modalität der menschlichen Analyse für die Aktionserkennung

Liu, Jinfu ; Ding, Runwei ; Wen, Yuhang ; Dai, Nan ; Meng, Fanyang ; Zhao, Shen ; Liu, Mengyuan
Erkundung der Modalität der menschlichen Analyse für die Aktionserkennung
Abstract

Mehrmodalbasierte Aktionserkennungsmethoden haben unter Verwendung von Pose- und RGB-Modalitäten hohe Erfolge erzielt. Allerdings fehlt es Skelettfolgen an der Darstellung des Aussehens, und RGB-Bilder leiden aufgrund der Modalitätseinschränkungen an irrelevantem Rauschen. Um dieses Problem zu lösen, führen wir die menschliche Segmentierungskarte als eine neue Modalität ein, da sie selektiv effektive semantische Merkmale der Körperteile beibehalten kann, während sie den Großteil des irrelevanten Rauschens filtert. Wir schlagen ein neues Dual-Branch-Framework vor, das Ensemble Human Parsing and Pose Network (EPP-Net) genannt wird. Dies ist die erste Methode, die sowohl Skelette als auch die Modaltät der menschlichen Segmentierung für die Aktionserkennung nutzt. Der erste Zweig für die menschliche Pose speist robuste Skelette in ein Graphik-Konvolutionales Netzwerk (Graph Convolutional Network), um Pose-Merkmale zu modellieren. Der zweite Zweig für die menschliche Segmentierung nutzt detaillierte Segmentierungsmerkmalskarten, um durch konvolutive Backbones Segmentierungsmerkmale zu modellieren. Die beiden hochwertigen Merkmale werden durch eine späte Fusionstrategie effektiv kombiniert, um eine bessere Aktionserkennung zu ermöglichen. Ausführliche Experimente auf den Benchmarks NTU RGB+D und NTU RGB+D 120 bestätigen konsistent die Effektivität unseres vorgeschlagenen EPP-Net, das bestehende Methoden der Aktionserkennung übertrifft. Unser Code ist verfügbar unter: https://github.com/liujf69/EPP-Net-Action.