Comprendre les scènes dynamiques à l’aide de réseaux de convolution de graphe

Nous présentons un cadre novateur fondé sur un réseau de convolution de graphes multi-relationnel (MRGCN) afin de modéliser les comportements des véhicules en circulation à partir d'une séquence d'images temporellement ordonnées capturées par une caméra monoscopique en mouvement. L'entrée du MRGCN est un graphe multi-relationnel dont les nœuds représentent les agents/objets actifs et passifs présents dans la scène, et dont les arêtes bidirectionnelles reliant chaque paire de nœuds codent les relations spatio-temporelles entre eux. Nous démontrons que cette approche explicite d'encodage et d'utilisation d'un graphe intermédiaire d'interactions spatio-temporelles s'avère particulièrement adaptée à nos tâches, par rapport à l'apprentissage direct en bout à bout sur un ensemble de relations spatiales ordonnées temporellement. Nous proposons également un mécanisme d'attention pour les MRGCN, conditionné dynamiquement à la scène, qui évalue de manière adaptative l'importance des informations provenant de différentes catégories d'interactions. Le cadre proposé obtient des gains significatifs de performance par rapport aux méthodes antérieures sur quatre jeux de données pour la classification des comportements des véhicules. Nous montrons également une transférabilité fluide de l'apprentissage à plusieurs jeux de données sans recourir à un ajustement fin (fine-tuning). Ces méthodes de prédiction de comportement sont immédiatement pertinentes pour diverses tâches de navigation, telles que la planification de comportement, l'estimation d'état, ainsi que les applications liées à la détection des infractions routières à partir de vidéos.