il y a 18 jours

Analyse comparative du raisonnement spatio-temporel basé sur les CNN dans les vidéos

Okan Köpüklü, Fabian Herzog, Gerhard Rigoll

Résumé

La compréhension des actions et des gestes dans les flux vidéo nécessite un raisonnement temporel sur le contenu spatial provenant de différents instants temporels, c’est-à-dire une modélisation spatio-temporelle (ST). Dans ce papier de synthèse, nous présentons une analyse comparative des différentes techniques de modélisation spatio-temporelle appliquées aux tâches de reconnaissance d’actions et de gestes. Étant donné que les Réseaux de Neurones Convolutionnels (CNN) se sont avérés être un outil efficace pour extraire des caractéristiques d’images statiques, nous appliquons les techniques de modélisation spatio-temporelle aux caractéristiques d’images statiques extraites à différents instants temporels par des CNN. Toutes les techniques sont entraînées de manière end-to-end conjointement avec la partie d’extraction de caractéristiques par CNN, puis évaluées sur deux jeux de données publiques : Jester et Something-Something. Le jeu de données Jester contient divers gestes manuels dynamiques et statiques, tandis que le jeu de données Something-Something comprend des actions impliquant des interactions humain-objet. La caractéristique commune de ces deux benchmarks est que les architectures conçues doivent capter l’intégralité du contenu temporel des vidéos afin de classer correctement les actions ou gestes. Contre toute attente, les résultats expérimentaux montrent que les techniques de modélisation spatio-temporelle basées sur les Réseaux de Neurones Récursifs (RNN) obtiennent des performances inférieures à celles d’autres approches, telles que les architectures entièrement convolutionnelles. Les codes et modèles pré-entraînés associés à cette étude sont disponibles publiquement.