Raum-Zeit-Attention Res-TCN für die dynamische Handgestenerkennung basierend auf Skelettinformationen
Die dynamische Gestenerkennung per Hand ist eine entscheidende, jedoch herausfordernde Aufgabe im Bereich des Computersehens. Der Schlüssel dieser Aufgabe liegt in der effektiven Extraktion diskriminativer räumlicher und zeitlicher Merkmale, um die Entwicklung verschiedener Gesten zu modellieren. In diesem Artikel stellen wir ein end-to-end-Netzwerk namens Spatial-Temporal Attention Residual Temporal Convolutional Network (STA-Res-TCN) für die auf Skelettdaten basierende dynamische Handgestenerkennung vor, das auf unterschiedlichen Ebenen Aufmerksamkeit lernt und diese jeweils den räumlich-zeitlichen Merkmalen zuweist, die von den Faltungsfiltern zu jedem Zeitpunkt extrahiert werden. Der vorgeschlagene Aufmerksamkeitszweig unterstützt das Netzwerk dabei, sich adaptiv auf informative Zeitfenster und Merkmale zu konzentrieren und gleichzeitig irrelevanten, oft störenden Informationen zu entgehen. Darüber hinaus ist unser vorgeschlagenes STA-Res-TCN ein leichtgewichtiges Modell, das in äußerst kurzer Zeit trainiert und getestet werden kann. Experimente auf den Datensätzen DHG-14/28 und SHREC’17 Track zeigen, dass STA-Res-TCN sowohl im 14-Gesten- als auch im komplexeren 28-Gesten-Setting die derzeit besten Ansätze übertrifft.