Mehrskaliges kontextsensitives Netzwerk mit Transformer für Gangerkennung

Obwohl die Schritterkennung in letzter Zeit zunehmendes Forschungsinteresse gefunden hat, sind die Silhouettenunterschiede im räumlichen Bereich sehr fein. Daher ist die zeitliche Merkmalsrepräsentation für die Schritterkennung entscheidend. Inspiriert durch die Beobachtung, dass Menschen Schritte verschiedener Personen durch fokussiertes Betrachten von Clips unterschiedlicher Zeitskalen voneinander unterscheiden können, schlagen wir ein mehrskaliges kontextbewusstes Netzwerk mit Transformer (MCAT) für die Schritterkennung vor. MCAT generiert zeitliche Merkmale auf drei Skalen und aggregiert diese adaptiv unter Verwendung von kontextuellen Informationen sowohl aus lokaler als auch aus globaler Perspektive. Insbesondere enthält MCAT ein Modul zur adaptiven zeitlichen Aggregation (ATA), das zunächst eine lokale Relationenmodellierung durchführt, gefolgt von einer globalen Relationenmodellierung, um die mehrskaligen Merkmale zu fusionieren. Darüber hinaus integriert MCAT ein Modul zum lernenden selektiven räumlichen Merkmalsauswahl (SSFL), um Gruppen diskriminativer räumlicher Merkmale auszuwählen und so die durch zeitliche Operationen verursachte Korruption der räumlichen Merkmale zu beheben. Umfangreiche Experimente auf drei Datensätzen zeigen eine Spitzenleistung. Konkret erzielen wir Rang-1-Akkuratenzen von 98,7 % bei normalem Gehen, 96,2 % beim Tragen eines Rucksacks und 88,7 % beim Tragen eines Mantels auf dem CASIA-B-Datensatz, 97,5 % auf dem OU-MVLP-Datensatz und 50,6 % auf dem GREW-Datensatz. Der Quellcode wird unter https://github.com/zhuduowang/MCAT.git verfügbar sein.