Machines d'inférence de structure : réseaux de neurones récurrents pour l'analyse des relations dans la reconnaissance d'activités de groupe

Les relations sémantiques riches sont essentielles dans divers problèmes de reconnaissance visuelle. Pour un exemple concret, la reconnaissance d'activités de groupe implique les interactions et les relations spatiales relatives d'un ensemble de personnes dans une scène. Les méthodes de reconnaissance les plus avancées se concentrent sur des approches d'apprentissage profond pour former des classifieurs complexes et très efficaces pour interpréter les images. Cependant, relier les concepts de niveau relativement bas produits par ces méthodes à l'interprétation de scènes compositionnelles de niveau supérieur reste un défi. Les modèles graphiques sont un outil standard pour cette tâche. Dans cet article, nous proposons une méthode pour intégrer les modèles graphiques et les réseaux neuronaux profonds dans un cadre commun. Au lieu d'utiliser une méthode d'inférence traditionnelle, nous utilisons une inférence séquentielle modélisée par un réseau neuronal récurrent. De plus, la structure appropriée pour l'inférence peut être apprise en imposant des portes sur les arêtes entre les nœuds. Les résultats empiriques sur la reconnaissance d'activités de groupe démontrent le potentiel de ce modèle pour traiter des tâches d'apprentissage hautement structurées.