HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la localisation d’actions temporelles : Modélisation avancée S6 avec mécanisme récurrent

Sangyoun Lee Juho Jung Changdae Oh Sunghee Yun

Résumé

La localisation temporelle des actions (TAL) est une tâche cruciale dans l'analyse vidéo, consistant à identifier précisément les instants de début et de fin des actions. Les méthodes existantes, telles que les CNN, les RNN, les GCN et les Transformers, présentent des limites dans la capture des dépendances à longue portée et de la causalité temporelle. Pour relever ces défis, nous proposons une nouvelle architecture TAL fondée sur le modèle d’espace d’état sélectif (S6). Notre approche intègre le bloc Feature Aggregated Bi-S6, la structure Dual Bi-S6 et un mécanisme récurrent afin d’améliorer la modélisation des dépendances temporelles et canalaires, sans augmenter la complexité paramétrique. Des expériences étendues sur des jeux de données de référence démontrent des résultats de pointe, avec des scores mAP de 74,2 % sur THUMOS-14, 42,9 % sur ActivityNet, 29,6 % sur FineAction et 45,8 % sur HACS. Des études d’ablation confirment l’efficacité de notre méthode, montrant que la structure Dual dans le module Stem et le mécanisme récurrent surpassent les approches traditionnelles. Nos résultats soulignent le potentiel des modèles basés sur S6 dans les tâches de TAL, ouvrant ainsi la voie à des recherches futures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp