vor 17 Tagen

Cross-Modal Learning mit 3D deformierbarer Aufmerksamkeit für die Aktionserkennung

Sangwon Kim, Dasom Ahn, Byoung Chul Ko

Abstract

Eine zentrale Herausforderung bei der handlungsorientierten Erkennung basierend auf Vision besteht darin, räumlich-zeitliche Merkmale aus zwei oder mehr heterogenen Modalitäten in einem einzigen Merkmalsvektor zu integrieren. In dieser Studie stellen wir einen neuen 3D-verformbaren Transformer für die Handlungsidentifikation mit adaptiven räumlich-zeitlichen Rezeptivfeldern und einem cross-modalen Lernschema vor. Der 3D-verformbare Transformer besteht aus drei Aufmerksamkeitsmodulen: 3D-Verformbarkeit, lokale gemeinsame Schrittweite und zeitliche Schrittweite-Aufmerksamkeit. Die beiden cross-modalen Tokens werden in das 3D-verformbare Aufmerksamkeitsmodul eingegeben, um ein cross-Attention-Token mit reflektierter räumlich-zeitlicher Korrelation zu erzeugen. Die lokale gemeinsame Schrittweite-Aufmerksamkeit wird verwendet, um räumlich Aufmerksamkeits- und Pose-Tokens zu kombinieren. Die zeitliche Schrittweite-Aufmerksamkeit reduziert temporal die Anzahl der Eingabetokens im Aufmerksamkeitsmodul und unterstützt die Lernung zeitlicher Ausdrücke, ohne dass alle Tokens gleichzeitig verwendet werden müssen. Der verformbare Transformer iteriert L-mal und kombiniert das letzte cross-modale Token zur Klassifikation. Der vorgeschlagene 3D-verformbare Transformer wurde auf den Datensätzen NTU60, NTU120, FineGYM und PennAction getestet und zeigte Ergebnisse, die entweder besser oder vergleichbar mit vortrainierten state-of-the-art-Methoden sind, selbst ohne einen vortrainierten Prozess. Zudem wird durch die Visualisierung bedeutender Gelenke und Korrelationen während der Handlungsidentifikation mittels räumlicher Gelenk- und zeitlicher Schrittweite-Aufmerksamkeit die Möglichkeit einer erklärbareren Handlungsidentifikation aufgezeigt.