HyperAIHyperAI
vor 17 Tagen

STAR-Transformer: Ein raumzeitlicher Kreuz-Attention-Transformer für die Erkennung menschlicher Aktionen

Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko
STAR-Transformer: Ein raumzeitlicher Kreuz-Attention-Transformer für die Erkennung menschlicher Aktionen
Abstract

Bei der Aktenerkennung kann die Kombination von raumzeitlichen Videos und Skelettmerkmalen die Erkennungsleistung zwar verbessern, erfordert jedoch ein separates Modell sowie eine Abstimmung der Merkmalsdarstellung für mehrmodale Daten. Um diese Probleme zu lösen, schlagen wir den Spatio-Temporal cRoss (STAR)-Transformer vor, der zwei mehrmodale Merkmale effizient als erkennbaren Vektor darstellen kann. Zunächst werden aus dem Eingabevideo und der Skelettsequenz jeweils Videoframes als globale Gitter-Token und Skelettstrukturen als Gelenk-Karten-Token generiert. Diese Token werden anschließend zu mehrklassigen Token aggregiert und in den STAR-Transformer eingespeist. Die Encoder-Schicht des STAR-Transformers besteht aus einem vollständigen Selbst-Attention-Modul (FAttn) und einem vorgeschlagenen Zickzack-raumzeitlichen Attention-Modul (ZAttn). Ebenso besteht der kontinuierliche Decoder aus einem FAttn-Modul und einem vorgeschlagenen binären Raum-Zeit-Attention-Modul (BAttn). Durch eine sorgfältige Anordnung der Paarungen aus FAttn-, ZAttn- und BAttn-Modulen lernt der STAR-Transformer eine effiziente Mehrmerkmalsdarstellung raumzeitlicher Merkmale. Experimentelle Ergebnisse auf den Datensätzen Penn-Action, NTU RGB+D 60 und 120 zeigen, dass die vorgeschlagene Methode im Vergleich zu vorherigen Stand der Technik eine vielversprechende Leistungssteigerung erzielt.