Apprentissage de graphes de relations d'acteurs pour la reconnaissance d'activités de groupe

La modélisation des relations entre les acteurs est cruciale pour la reconnaissance d'activités de groupe dans une scène impliquant plusieurs personnes. Cet article vise à apprendre efficacement des relations discriminantes entre les acteurs en utilisant des modèles profonds. À cette fin, nous proposons de construire un graphe de relations d'acteurs (Actor Relation Graph, ARG) flexible et efficace afin de capturer simultanément les relations d'apparence et de position entre les acteurs. Grâce au réseau de convolution sur graphe (Graph Convolutional Network), les connexions dans l'ARG peuvent être apprises automatiquement à partir de vidéos d'activités de groupe, de manière end-to-end, et l'inférence sur l'ARG peut être réalisée efficacement avec des opérations matricielles standard. De plus, en pratique, nous avons développé deux variantes pour rendre l'ARG plus clairsemé afin d'améliorer la modélisation dans les vidéos : l'ARG localisé spatialement et l'ARG randomisé temporellement. Nous menons des expériences approfondies sur deux jeux de données standard pour la reconnaissance d'activités de groupe : le jeu de données Volleyball et le jeu de données Collective Activity, où des performances state-of-the-art sont obtenues sur les deux jeux de données. Nous visualisons également les graphes d'acteurs appris et leurs caractéristiques relationnelles, ce qui montre que l'ARG proposé est capable de capturer des informations relationnelles discriminantes pour la reconnaissance d'activités de groupe.