Graphe de Raisonnement Temporel pour la Reconnaissance d'Activités

Malgré les grands succès réalisés dans l'analyse d'activités, de nombreux défis restent à relever. La plupart des travaux existants en reconnaissance d'activités portent davantage sur la conception d'architectures efficaces ou sur des stratégies d'échantillonnage vidéo. Cependant, en raison des caractéristiques des actions fines et de la structure à long terme dans les vidéos, la reconnaissance d'activités doit être capable de raisonner sur les relations temporelles entre les séquences vidéo. Dans cet article, nous proposons un graphe de raisonnement temporel efficace (TRG) pour capturer simultanément les caractéristiques d'apparence et les relations temporelles entre les séquences vidéo à différentes échelles temporelles. Plus précisément, nous construisons des graphes de relations temporelles apprenables pour explorer les relations temporelles sur une plage multi-échelle. De plus, afin de faciliter l'extraction des relations temporelles multi-échelles, nous avons conçu une matrice adjacente temporelle multi-têtes pour représenter diverses sortes de relations temporelles. Enfin, un agrégateur de relations temporelles multi-têtes est proposé pour extraire le sens sémantique de ces caractéristiques qui convoluent à travers les graphes. Des expériences approfondies ont été menées sur des jeux de données largement utilisés et à grande échelle, tels que Something-Something et Charades, et les résultats montrent que notre modèle peut atteindre des performances parmi les meilleures actuellement disponibles. Une analyse supplémentaire révèle que le raisonnement sur les relations temporelles avec notre TRG permet d'extraire des caractéristiques discriminantes pour la reconnaissance d'activités.