Skelettbasierte Aktionserkennung mit synchroner lokaler und nicht-lokaler räumlich-zeitlicher Lernmethode und Frequenz-Aufmerksamkeit

Dank seiner Kürze und Robustheit hat die auf Skeletten basierende Aktionserkennung in letzter Zeit viel Aufmerksamkeit gefunden. Die meisten existierenden Methoden nutzen lokale Netzwerke (z.B. rekurrente, konvolutive und graph-konvolutive Netzwerke), um räumlich-zeitliche Dynamiken hierarchisch zu extrahieren. Als Folge davon werden lokale und nicht-lokale Abhängigkeiten, die jeweils mehr Details und Semantik enthalten, asynchron auf verschiedenen Ebenen erfasst. Darüber hinaus sind bestehende Methoden auf den räumlich-zeitlichen Bereich beschränkt und ignorieren Informationen im Frequenzbereich. Um eine bessere gleichzeitige Extraktion detaillierter und semantischer Informationen aus mehreren Bereichen zu ermöglichen, schlagen wir einen Residual-Frequenz-Aufmerksamkeitsblock (rFA) vor, der sich auf diskriminative Muster im Frequenzbereich konzentriert, sowie einen gleichzeitigen lokalen und nicht-lokalen Block (SLnL), der Details und Semantik im räumlich-zeitlichen Bereich simultan erfasst. Zudem wird ein Soft-Margin-Fokusverlust (SMFL) vorgeschlagen, um den gesamten Lernprozess zu optimieren. Dieser führt automatisch eine Datenauswahl durch und fördert intrinsische Margen in Klassifizierern. Unser Ansatz übertrifft andere state-of-the-art-Methoden signifikant auf mehreren großen Datensätzen.