MMNet : Un réseau multimodal fondé sur un modèle pour la reconnaissance d’actions humaines dans des vidéos RGB-D
La reconnaissance d’actions humaines (HAR) dans les vidéos RGB-D a fait l’objet d’une étude intensive depuis la mise sur le marché de capteurs de profondeur abordables. À l’heure actuelle, les approches unimodales (par exemple, basées sur les squelettes ou les vidéos RGB) ont permis des progrès significatifs grâce à l’augmentation continue de la taille des jeux de données. Toutefois, les méthodes multimodales, en particulier celles reposant sur une fusion au niveau du modèle, ont été peu explorées. Dans ce travail, nous proposons un réseau multimodal fondé sur un modèle (MMNet) qui réalise une fusion entre les modalités squelette et RGB par une approche modélisée. L’objectif de notre méthode est d’améliorer la précision de reconnaissance en exploitant efficacement les informations complémentaires mutuelles provenant de différentes modalités de données. Pour la stratégie de fusion fondée sur le modèle, nous utilisons un réseau de convolution sur graphe spatio-temporel pour la modalité squelette afin d’apprendre des poids d’attention qui seront ensuite transférés au réseau de la modalité RGB. Des expérimentations étendues ont été menées sur cinq jeux de données de référence : NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA Multiview et Toyota Smarthome. En combinant les résultats obtenus à partir de plusieurs modalités, notre méthode s’avère supérieure aux approches de pointe sur six protocoles d’évaluation appliqués aux cinq jeux de données ; cela démontre que le MMNet proposé est capable d’extraire efficacement des caractéristiques complémentaires mutuelles présentes dans les différentes modalités de vidéos RGB-D et de fournir des caractéristiques plus discriminantes pour la reconnaissance d’actions humaines. Nous avons également évalué notre MMNet sur un jeu de données vidéo RGB, Kinetics 400, qui inclut davantage d’actions en extérieur, et les résultats obtenus sont cohérents avec ceux observés sur les jeux de données RGB-D.