Structural-RNN : Apprentissage profond sur les graphes spatio-temporels

Les architectures de Réseaux Neuronaux Récurents Profonds (Deep RNN), bien qu'extrêmement performantes pour modéliser des séquences, manquent d'une structure spatio-temporelle de haut niveau intuitive. De nombreux problèmes en vision par ordinateur possèdent intrinsèquement une telle structure de haut niveau et peuvent en bénéficier. Les graphes spatio-temporels sont un outil populaire pour imposer ces intuitions de haut niveau dans la formulation de problèmes du monde réel. Dans cet article, nous proposons une approche visant à combiner la puissance des graphes spatio-temporels de haut niveau et le succès de l'apprentissage séquentiel des Réseaux Neuronaux Récurents (RNN). Nous développons une méthode évolutive permettant de transformer un graphe spatio-temporel arbitraire en un mélange riche de RNN, qui est à alimentation directe, entièrement différentiable et conjointement entraînable. La méthode proposée est générique et rigoureuse car elle peut être utilisée pour transformer n'importe quel graphe spatio-temporel en suivant un ensemble bien défini d'étapes. Les évaluations de cette approche sur un ensemble varié de problèmes, allant de la modélisation du mouvement humain aux interactions d'objets, montrent une amélioration significative par rapport à l'état de l'art avec une large marge. Nous nous attendons à ce que cette méthode favorise l'émergence de nouvelles approches dans la formulation des problèmes grâce aux graphes spatio-temporels de haut niveau et aux RNN.