HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-Modal Learning mit 3D deformierbarer Aufmerksamkeit für die Aktionserkennung

Sangwon Kim Dasom Ahn Byoung Chul Ko

Zusammenfassung

Eine zentrale Herausforderung bei der handlungsorientierten Erkennung basierend auf Vision besteht darin, räumlich-zeitliche Merkmale aus zwei oder mehr heterogenen Modalitäten in einem einzigen Merkmalsvektor zu integrieren. In dieser Studie stellen wir einen neuen 3D-verformbaren Transformer für die Handlungsidentifikation mit adaptiven räumlich-zeitlichen Rezeptivfeldern und einem cross-modalen Lernschema vor. Der 3D-verformbare Transformer besteht aus drei Aufmerksamkeitsmodulen: 3D-Verformbarkeit, lokale gemeinsame Schrittweite und zeitliche Schrittweite-Aufmerksamkeit. Die beiden cross-modalen Tokens werden in das 3D-verformbare Aufmerksamkeitsmodul eingegeben, um ein cross-Attention-Token mit reflektierter räumlich-zeitlicher Korrelation zu erzeugen. Die lokale gemeinsame Schrittweite-Aufmerksamkeit wird verwendet, um räumlich Aufmerksamkeits- und Pose-Tokens zu kombinieren. Die zeitliche Schrittweite-Aufmerksamkeit reduziert temporal die Anzahl der Eingabetokens im Aufmerksamkeitsmodul und unterstützt die Lernung zeitlicher Ausdrücke, ohne dass alle Tokens gleichzeitig verwendet werden müssen. Der verformbare Transformer iteriert L-mal und kombiniert das letzte cross-modale Token zur Klassifikation. Der vorgeschlagene 3D-verformbare Transformer wurde auf den Datensätzen NTU60, NTU120, FineGYM und PennAction getestet und zeigte Ergebnisse, die entweder besser oder vergleichbar mit vortrainierten state-of-the-art-Methoden sind, selbst ohne einen vortrainierten Prozess. Zudem wird durch die Visualisierung bedeutender Gelenke und Korrelationen während der Handlungsidentifikation mittels räumlicher Gelenk- und zeitlicher Schrittweite-Aufmerksamkeit die Möglichkeit einer erklärbareren Handlungsidentifikation aufgezeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp