Command Palette
Search for a command to run...
Réseau de Transformers d'Interaction Holistique pour la Détection d'Actions
Réseau de Transformers d'Interaction Holistique pour la Détection d'Actions
Gueter Josmy Faure Min-Hung Chen Shang-Hong Lai
Résumé
Les actions concernent la manière dont nous interagissons avec l'environnement, y compris avec d'autres personnes, objets et nous-mêmes. Dans cet article, nous proposons un nouveau réseau de transformation multimodal holistique des interactions (HIT) qui exploite les informations essentielles sur les mains et la posture, largement négligées mais cruciales pour la plupart des actions humaines. Le réseau "HIT" proposé est un cadre bimodal complet comprenant un flux RGB et un flux de posture. Chacun de ces flux modèle séparément les interactions entre une personne, un objet et une main. Au sein de chaque sous-réseau, un module d'agrégation intra-modale (IMA) est introduit pour fusionner sélectivement les unités d'interaction individuelles. Les caractéristiques issues de chaque modalité sont ensuite combinées à l'aide d'un mécanisme de fusion attentive (AFM). Enfin, nous extrayons des indices du contexte temporel pour améliorer la classification des actions en cours à l'aide d'une mémoire mise en cache. Notre méthode surpasse significativement les approches précédentes sur les jeux de données J-HMDB, UCF101-24 et MultiSports. Nous obtenons également des résultats compétitifs sur AVA. Le code sera disponible à l'adresse suivante : https://github.com/joslefaure/HIT.