Lorsque les CNN rencontrent des RNN aléatoires : Vers une analyse multi-niveaux pour la reconnaissance d'objets et de scènes en RGB-D

La reconnaissance d’objets et de scènes constitue deux tâches fondamentales mais complexes dans le domaine du traitement d’images. En particulier, l’utilisation des capteurs RGB-D pour aborder ces tâches s’est imposée comme un domaine clé d’attention afin d’améliorer la compréhension visuelle. Parallèlement, les réseaux neuronaux profonds, et plus spécifiquement les réseaux de neurones convolutifs (CNN), se sont généralisés et sont désormais appliqués à de nombreuses tâches visuelles en remplaçant les caractéristiques conçues manuellement par des caractéristiques profondes efficaces. Toutefois, il reste un problème ouvert de savoir comment exploiter de manière optimale les caractéristiques profondes issues d’un modèle CNN à plusieurs couches. Dans cet article, nous proposons un nouveau cadre en deux étapes permettant d’extraire des représentations discriminantes à partir d’images multimodales RGB-D pour les tâches de reconnaissance d’objets et de scènes. Dans la première étape, un modèle CNN pré-entraîné est utilisé comme architecture principale pour extraire des caractéristiques visuelles à plusieurs niveaux. Dans la deuxième étape, ces caractéristiques sont transformées en représentations de haut niveau grâce à une structure entièrement aléatoire de réseaux de neurones récurrents (RNN), de manière efficace. Pour faire face à la haute dimensionnalité des activations du CNN, nous proposons une méthode de pooling pondéré aléatoire, inspirée de l’idée d’aléatoire inhérente aux RNN. La fusion multimodale est réalisée via une approche de vote doux, où les poids sont calculés à partir des confiances individuelles de reconnaissance (c’est-à-dire les scores SVM) des flux RGB et profondeur. Cette stratégie permet d’obtenir une estimation cohérente des étiquettes de classe dans la classification finale RGB-D. Des expériences étendues démontrent que la structure entièrement aléatoire dans la phase RNN permet de coder efficacement les activations du CNN en caractéristiques discriminantes solides. Les résultats comparatifs sur les jeux de données populaires Washington RGB-D Object et SUN RGB-D Scene montrent que l’approche proposée atteint des performances supérieures ou équivalentes aux méthodes de pointe, tant pour la reconnaissance d’objets que pour celle de scènes. Le code source est disponible à l’adresse suivante : https://github.com/acaglayan/CNN_randRNN.