HyperAIHyperAI
vor 17 Tagen

Integration von Human Parsing und Pose-Netzwerk zur menschlichen Aktionserkennung

Runwei Ding, Yuhang Wen, Jinfu Liu, Nan Dai, Fanyang Meng, Mengyuan Liu
Integration von Human Parsing und Pose-Netzwerk zur menschlichen Aktionserkennung
Abstract

Menschliche Skelette und RGB-Sequenzen sind beide weit verbreitete Eingabemodalitäten für die Aktionserkennung beim Menschen. Allerdings fehlen Skelettdaten visuelle Merkmale, während Farbbilder eine große Menge an irrelevanten visuellen Informationen enthalten. Um dieses Problem anzugehen, führen wir die menschliche Parsing-Featurekarte als eine neue Modality ein, da sie räumlich-zeitliche Merkmale der Körperpartien gezielt beibehält, während sie Rauschen bezüglich Kleidung, Hintergründe usw. unterdrückt. Wir schlagen ein Integratives Netzwerk aus Menschlichem Parsing und Pose (IPP-Net) zur Aktionserkennung vor, das erstmals sowohl Skelette als auch menschliche Parsing-Featurekarten in einem dualen Zweigansatz nutzt. In dem Pose-Zweig werden kompakte skelettbasierte Darstellungen verschiedener Modalitäten mittels eines Graphen-Konvolutionellen Netzes verarbeitet, um Pose-Merkmale zu modellieren. Im Parsing-Zweig werden mehrfrahmige Körperpartikelparsing-Merkmale mit Hilfe eines menschlichen Detektors und eines Parsings-Moduls extrahiert, die anschließend mittels eines konvolutionellen Backbone-Netzwerks gelernt werden. Eine späte Ensemble-Verknüpfung beider Zweige ermöglicht schließlich die endgültigen Vorhersagen, wobei sowohl robuste Schlüsselpunkte als auch reichhaltige semantische Merkmale der Körperpartien berücksichtigt werden. Umfassende Experimente auf den Benchmarks NTU RGB+D und NTU RGB+D 120 bestätigen konsistent die Wirksamkeit des vorgeschlagenen IPP-Net, das die bestehenden Methoden zur Aktionserkennung übertrifft. Der Quellcode ist öffentlich unter https://github.com/liujf69/IPP-Net-Parsing verfügbar.