Raisonnement relationnel sur des graphes spatio-temporels pour la synthèse vidéo
Dans cet article, nous proposons une approche de modélisation dynamique des graphes pour apprendre des représentations spatio-temporelles destinées à la synthèse vidéo. La plupart des méthodes existantes de synthèse vidéo extraient des caractéristiques au niveau des images à l’aide de modèles profonds pré-entraînés sur ImageNet. À la différence de ces approches, notre méthode exploite des informations au niveau des objets et au niveau des relations afin de capturer les dépendances spatio-temporelles. Plus précisément, notre méthode construit des graphes spatiaux à partir des propositions d’objets détectés. Ensuite, un graphe temporel est établi à partir des représentations agrégées des graphes spatiaux. Par la suite, nous effectuons un raisonnement relationnel sur les graphes spatiaux et temporels à l’aide de réseaux de convolution de graphe, et extrayons des représentations spatio-temporelles pour la prédiction des scores d’importance et la sélection des segments clés. Pour éliminer les bruits relationnels causés par des nœuds fortement connectés, nous avons conçu en outre un module d’agrégation d’arêtes basé sur l’attention auto-attention, qui ignore les relations sans signification au sein des graphes. Nous avons mené des expériences étendues sur deux benchmarks populaires, à savoir les jeux de données SumMe et TVSum. Les résultats expérimentaux démontrent que la méthode proposée atteint des performances supérieures par rapport aux méthodes d’état de l’art en synthèse vidéo.