Ajoutez simplement $\pi$ ! Transformers Vidéo Induits par la Pose pour la Compréhension des Activités de la Vie Quotidienne

Les transformateurs vidéo sont devenus la norme de facto pour la reconnaissance des actions humaines, mais leur dépendance exclusive à l'égard de la modalité RGB limite encore leur adoption dans certains domaines. L'un de ces domaines est les Activités de la Vie Quotidienne (ADL), où le seul RGB n'est pas suffisant pour distinguer entre des actions visuellement similaires ou observées sous différents angles. Pour faciliter l'adoption des transformateurs vidéo dans les ADL, nous formulons l'hypothèse selon laquelle l'augmentation du RGB avec des informations sur la posture humaine, reconnue pour sa sensibilité aux mouvements fins et aux multiples points de vue, est essentielle. Par conséquent, nous présentons le premier Transformateur Vidéo Induit par la Posture : PI-ViT (ou $\pi$-ViT), une approche novatrice qui enrichit les représentations RGB apprises par les transformateurs vidéo avec des informations sur la posture en 2D et en 3D. Les éléments clés du $\pi$-ViT sont deux modules d'insertion, le Module d'Induction Squelettique 2D et le Module d'Induction Squelettique 3D, chargés d'introduire des informations sur la posture en 2D et en 3D dans les représentations RGB. Ces modules fonctionnent en effectuant des tâches auxiliaires sensibles à la posture, un choix de conception qui permet au $\pi$-ViT d'éliminer ces modules lors de l'inférence. Il convient de souligner que le $\pi$-ViT atteint des performances de pointe sur trois jeux de données ADL majeurs, couvrant à la fois des jeux de données réels et à grande échelle en RGB-D, sans nécessiter des postures ou une charge computationnelle supplémentaire lors de l'inférence.