Reconnaissance unifiée à base de Transformer de deux mains manipulant des objets

La compréhension des interactions main-objet à partir d'une vidéo égocentrique a récemment suscité un grand intérêt. Jusqu'à présent, la plupart des approches reposent sur des caractéristiques issues de réseaux neuronaux convolutifs (CNN), combinées à une encodage temporel via des réseaux de mémoire à long terme (LSTM) ou des réseaux de convolution de graphe (GCN), afin d'obtenir une compréhension unifiée des deux mains, de l'objet et de leurs interactions. Dans cet article, nous proposons un cadre unifié basé sur le Transformer, offrant une meilleure compréhension des deux mains manipulant un objet. Dans notre cadre, nous prenons en entrée l'image complète représentant les deux mains, l'objet et leurs interactions, et estimons conjointement, pour chaque trame, trois informations : les poses des deux mains, la pose de l'objet et son type. Par la suite, la classe d'action définie par les interactions main-objet est prédite à partir de la vidéo entière, à partir des informations estimées combinées à une carte de contact qui encode les interactions entre les deux mains et l'objet. Des expériences ont été menées sur les jeux de données de référence H2O et FPHA, démontrant ainsi l'efficacité de notre méthode, qui atteint une précision au niveau de l'état de l'art. Des études ablatives supplémentaires confirment l'efficacité de chaque module proposé.