HyperAIHyperAI

Command Palette

Search for a command to run...

STAR-Transformer: Ein raumzeitlicher Kreuz-Attention-Transformer für die Erkennung menschlicher Aktionen

Dasom Ahn Sangwon Kim Hyunsu Hong Byoung Chul Ko

Zusammenfassung

Bei der Aktenerkennung kann die Kombination von raumzeitlichen Videos und Skelettmerkmalen die Erkennungsleistung zwar verbessern, erfordert jedoch ein separates Modell sowie eine Abstimmung der Merkmalsdarstellung für mehrmodale Daten. Um diese Probleme zu lösen, schlagen wir den Spatio-Temporal cRoss (STAR)-Transformer vor, der zwei mehrmodale Merkmale effizient als erkennbaren Vektor darstellen kann. Zunächst werden aus dem Eingabevideo und der Skelettsequenz jeweils Videoframes als globale Gitter-Token und Skelettstrukturen als Gelenk-Karten-Token generiert. Diese Token werden anschließend zu mehrklassigen Token aggregiert und in den STAR-Transformer eingespeist. Die Encoder-Schicht des STAR-Transformers besteht aus einem vollständigen Selbst-Attention-Modul (FAttn) und einem vorgeschlagenen Zickzack-raumzeitlichen Attention-Modul (ZAttn). Ebenso besteht der kontinuierliche Decoder aus einem FAttn-Modul und einem vorgeschlagenen binären Raum-Zeit-Attention-Modul (BAttn). Durch eine sorgfältige Anordnung der Paarungen aus FAttn-, ZAttn- und BAttn-Modulen lernt der STAR-Transformer eine effiziente Mehrmerkmalsdarstellung raumzeitlicher Merkmale. Experimentelle Ergebnisse auf den Datensätzen Penn-Action, NTU RGB+D 60 und 120 zeigen, dass die vorgeschlagene Methode im Vergleich zu vorherigen Stand der Technik eine vielversprechende Leistungssteigerung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
STAR-Transformer: Ein raumzeitlicher Kreuz-Attention-Transformer für die Erkennung menschlicher Aktionen | Paper | HyperAI