Détection d'actions temporelles avec des réseaux de segments structurés

La détection d'actions dans des vidéos non coupées est une tâche importante mais complexe. Dans cet article, nous présentons le réseau de segments structurés (SSN), un cadre novateur qui modélise la structure temporelle de chaque instance d'action à travers une pyramide temporelle structurée. Au sommet de cette pyramide, nous introduisons également un modèle discriminatif décomposé composé de deux classifieurs, l'un pour classifier les actions et l'autre pour déterminer leur complétude. Cela permet au cadre de distinguer efficacement les propositions positives du fond ou des actions incomplètes, conduisant ainsi à une reconnaissance et une localisation précises. Ces composants sont intégrés dans un réseau unifié qui peut être formé de manière efficace et end-to-end. De plus, un schéma simple mais efficace de proposition d'actions temporelles, appelé regroupement d'actionnalité temporelle (TAG) [temporal actionness grouping], a été conçu pour générer des propositions d'actions de haute qualité. Sur deux benchmarks difficiles, THUMOS14 et ActivityNet, notre méthode surpasse remarquablement les méthodes précédentes de pointe, démontrant une précision supérieure et une forte adaptabilité dans le traitement d'actions présentant diverses structures temporelles.