HyperAIHyperAI
vor 2 Monaten

Holistisches Interaktions-Transformer-Netzwerk für Aktionserkennung

Faure, Gueter Josmy ; Chen, Min-Hung ; Lai, Shang-Hong
Holistisches Interaktions-Transformer-Netzwerk für Aktionserkennung
Abstract

Aktionen beinhalten, wie wir mit der Umgebung interagieren, einschließlich anderer Menschen, Objekte und uns selbst. In dieser Arbeit schlagen wir ein neues multimodales Holistisches Interaktions-Transformer-Netzwerk (HIT) vor, das die weitgehend vernachlässigte, aber entscheidende Hand- und Poseinformation nutzt, die für die meisten menschlichen Aktionen essentiell ist. Das vorgeschlagene „HIT“-Netzwerk ist ein umfassendes bimodales Framework, das einen RGB-Stream und einen Pose-Stream umfasst. Jeder von ihnen modelliert getrennt Person-, Objekt- und Handinteraktionen. Innerhalb jedes Unter-Netzwerks wird ein Intra-Modality-Aggregation-Modul (IMA) eingeführt, das selektiv einzelne Interaktions-Einheiten zusammenführt. Die resultierenden Merkmale aus jeder Modalität werden dann durch einen Aufmerksamkeits-Fusions-Mechanismus (AFM) verbunden. Schließlich extrahieren wir Hinweise aus dem zeitlichen Kontext, um die auftretenden Aktionen unter Verwendung gespeicherter Erinnerung besser zu klassifizieren. Unsere Methode übertrifft signifikant frühere Ansätze auf den Datensätzen J-HMDB, UCF101-24 und MultiSports. Wir erzielen auch wettbewerbsfähige Ergebnisse auf AVA. Der Code wird unter https://github.com/joslefaure/HIT zur Verfügung gestellt.

Holistisches Interaktions-Transformer-Netzwerk für Aktionserkennung | Neueste Forschungsarbeiten | HyperAI