Multimodales Mehrteillernen für die Aktionserkennung in Tiefenvideos

Die artikulierte und komplexe Natur menschlicher Bewegungen macht die Aufgabe der Aktionserkennung schwierig. Ein Ansatz zur Bewältigung dieser Komplexität besteht darin, sie in die Kinematik von Körperteilen zu unterteilen und die Aktionen auf Basis dieser partiellen Deskriptoren zu analysieren. Wir schlagen eine lernende Methode basierend auf gemeinsamer sparsamer Regression vor, die strukturierte Sparsamkeit nutzt, um jede Aktion als Kombination multimodaler Merkmale aus einer dünn besetzten Menge von Körperteilen zu modellieren. Um Dynamik und Erscheinung der Teile darzustellen, verwenden wir eine heterogene Menge von tiefen- und Skelettbasierten Merkmalen. Die geeignete Struktur multimodaler Mehrteilchen-Merkmale wird durch den vorgeschlagenen hierarchischen gemischten Norm in das Lernframework eingearbeitet, um die strukturierten Merkmale jedes Teils zu regularisieren und Sparsamkeit zwischen ihnen anzuwenden, wobei eine Gruppenmerkmalsauswahl bevorzugt wird. Unsere experimentellen Ergebnisse zeigen die Effektivität der vorgeschlagenen Lernmethode, bei der sie in allen drei getesteten Datensätzen andere Methoden übertrifft und einen von ihnen durch die Erreichung perfekter Genauigkeit sättigt.