Amélioration de la localisation d’actions temporelles : Modélisation avancée S6 avec mécanisme récurrent

La localisation temporelle des actions (TAL) est une tâche cruciale dans l'analyse vidéo, consistant à identifier précisément les instants de début et de fin des actions. Les méthodes existantes, telles que les CNN, les RNN, les GCN et les Transformers, présentent des limites dans la capture des dépendances à longue portée et de la causalité temporelle. Pour relever ces défis, nous proposons une nouvelle architecture TAL fondée sur le modèle d’espace d’état sélectif (S6). Notre approche intègre le bloc Feature Aggregated Bi-S6, la structure Dual Bi-S6 et un mécanisme récurrent afin d’améliorer la modélisation des dépendances temporelles et canalaires, sans augmenter la complexité paramétrique. Des expériences étendues sur des jeux de données de référence démontrent des résultats de pointe, avec des scores mAP de 74,2 % sur THUMOS-14, 42,9 % sur ActivityNet, 29,6 % sur FineAction et 45,8 % sur HACS. Des études d’ablation confirment l’efficacité de notre méthode, montrant que la structure Dual dans le module Stem et le mécanisme récurrent surpassent les approches traditionnelles. Nos résultats soulignent le potentiel des modèles basés sur S6 dans les tâches de TAL, ouvrant ainsi la voie à des recherches futures.