HyperAIHyperAI
il y a 18 jours

PERF-Net : Réseau RGB-Flow stimulé par la posture

Yinxiao Li, Zhichao Lu, Xuehan Xiong, Jonathan Huang
PERF-Net : Réseau RGB-Flow stimulé par la posture
Résumé

Ces dernières années, de nombreuses études dans la littérature de reconnaissance d’actions vidéo ont démontré que les modèles à deux flux (combinant des flux d’entrée spatiaux et temporels) sont nécessaires pour atteindre des performances de pointe. Dans cet article, nous montrons les avantages d’introduire un troisième flux basé sur la posture humaine estimée à partir de chaque trame — plus précisément, en rendant cette posture sur les trames RGB d’entrée. À première vue, ce flux supplémentaire pourrait sembler redondant, puisque la posture humaine est entièrement déterminée par les valeurs des pixels RGB ; toutefois, nous démontrons (peut-être surprenamment) que cette extension simple et flexible peut apporter des gains complémentaires. En nous appuyant sur cette observation, nous proposons un nouveau modèle, que nous appelons PERF-Net (pour Pose Empowered RGB-Flow Net), qui combine ce nouveau flux de posture avec les flux d’entrée classiques basés sur les images RGB et les flux optiques grâce à des techniques de distillation. Nous montrons que notre modèle dépasse largement l’état de l’art sur plusieurs jeux de données de reconnaissance d’actions humaines, sans nécessiter le calcul explicite du flux ou de la posture au moment de l’inférence. Ce flux de posture proposé fait également partie de la solution gagnante du Challenge ActivityNet Kinetics 2020.