Fusion de Trames en Mouvement : Stratégie de Fusion au Niveau des Données pour la Reconnaissance des Gestes de la Main

L'acquisition des états spatio-temporels d'une action est la étape la plus cruciale pour sa classification. Dans cet article, nous proposons une stratégie de fusion au niveau des données, les Images Fusionnées de Mouvement (Motion Fused Frames, MFFs), conçue pour intégrer les informations de mouvement dans des images statiques afin d'en faire de meilleures représentations des états spatio-temporels d'une action. Les MFFs peuvent être utilisées comme entrée pour n'importe quelle architecture d'apprentissage profond avec très peu de modifications du réseau. Nous évaluons les MFFs sur des tâches de reconnaissance de gestes manuels en utilisant trois ensembles de données vidéo : Jester, ChaLearn LAP IsoGD et NVIDIA Dynamic Hand Gesture Datasets, qui nécessitent la capture de relations temporelles à long terme des mouvements de la main. Notre approche obtient des performances très compétitives sur les benchmarks Jester et ChaLearn avec des taux de classification respectivement de 96,28 % et 57,4 %, tout en atteignant des performances d'état de l'art avec un taux de précision de 84,7 % sur le benchmark NVIDIA.