Réseau de Relations Interactives pour la Reconnaissance Mutuelle des Actions

La reconnaissance mutuelle des actions personne-personne (également appelée reconnaissance d'interactions) est une branche de recherche importante dans l'analyse des activités humaines. Les solutions actuelles dans ce domaine, principalement dominées par les CNNs (Convolutional Neural Networks), les GCNs (Graph Convolutional Networks) et les LSTMs (Long Short-Term Memory networks), consistent souvent en des architectures et mécanismes complexes visant à intégrer les relations entre deux personnes au sein même de l'architecture, afin de garantir que les modèles d'interaction soient correctement appris. Notre contribution principale avec cette étude est la proposition d'une architecture plus simple mais très puissante, nommée Interaction Relational Network (IRN), qui utilise un minimum de connaissances préalables sur la structure du corps humain. Nous incitons le réseau à identifier lui-même comment relier les parties du corps des individus en interaction. Pour mieux représenter l'interaction, nous définissons deux types de relations différents, conduisant à des architectures et modèles spécialisés pour chacun. Ces modèles relationnels multiples seront ensuite fusionnés dans une seule architecture spéciale, afin d'exploiter les deux flux d'informations pour améliorer encore davantage la capacité de raisonnement relationnel. De plus, nous définissons des opérations structurées paires importantes pour extraire des informations supplémentaires significatives de chaque paire d'articulations – distance et mouvement. Enfin, grâce à l'intégration d'un LSTM, notre IRN est capable d'un raisonnement relationnel séquentiel primordial. Ces extensions importantes que nous avons apportées à notre réseau peuvent également être précieuses pour d'autres problèmes nécessitant un raisonnement relationnel sophistiqué. Notre solution atteint des performances de pointe sur les jeux de données traditionnels de reconnaissance d'interactions SBU et UT, ainsi que sur les actions mutuelles du jeu de données à grande échelle NTU RGB+D. De plus, elle obtient des performances compétitives dans le sous-ensemble des interactions du jeu de données NTU RGB+D 120.