HyperAIHyperAI

Command Palette

Search for a command to run...

Holistisches Interaktions-Transformer-Netzwerk für Aktionserkennung

Gueter Josmy Faure Min-Hung Chen Shang-Hong Lai

Zusammenfassung

Aktionen beinhalten, wie wir mit der Umgebung interagieren, einschließlich anderer Menschen, Objekte und uns selbst. In dieser Arbeit schlagen wir ein neues multimodales Holistisches Interaktions-Transformer-Netzwerk (HIT) vor, das die weitgehend vernachlässigte, aber entscheidende Hand- und Poseinformation nutzt, die für die meisten menschlichen Aktionen essentiell ist. Das vorgeschlagene „HIT“-Netzwerk ist ein umfassendes bimodales Framework, das einen RGB-Stream und einen Pose-Stream umfasst. Jeder von ihnen modelliert getrennt Person-, Objekt- und Handinteraktionen. Innerhalb jedes Unter-Netzwerks wird ein Intra-Modality-Aggregation-Modul (IMA) eingeführt, das selektiv einzelne Interaktions-Einheiten zusammenführt. Die resultierenden Merkmale aus jeder Modalität werden dann durch einen Aufmerksamkeits-Fusions-Mechanismus (AFM) verbunden. Schließlich extrahieren wir Hinweise aus dem zeitlichen Kontext, um die auftretenden Aktionen unter Verwendung gespeicherter Erinnerung besser zu klassifizieren. Unsere Methode übertrifft signifikant frühere Ansätze auf den Datensätzen J-HMDB, UCF101-24 und MultiSports. Wir erzielen auch wettbewerbsfähige Ergebnisse auf AVA. Der Code wird unter https://github.com/joslefaure/HIT zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp